Recent posts

Note 421 자연어처리, 텍스트 전처리, 등장 횟수 기반의 단어표현

8 minute read

자연어는 사람들이 일상적으로 쓰는 언어를 의미하고, 인공적으로 만들어진 언어(프로그래밍 언어 등)와 구분하여 부른다. 이 자연어를 컴퓨터로 처리하는 기술을 자연어 처리(Natural Language Processing, NLP)라고 하는데 이번 스프린트에서는 이 NLP에 대해 배웠...

시각화와 결론

4 minute read

지난 포스팅까지 해서 대전광역시 교통사고 위험 예상지역 100개지역을 도출했고, 마지막으로 이 지역들에게 어떠한 조치가 취해지면 좋을지 대안책을 제시해보자.

Note 414 교차검증과 하이퍼파라미터 튜닝

3 minute read

머신러닝에서 일반화 능력을 향상 시키기 위해 교차검증을 사용했고, 모델을 최적화 시키기 위해 하이퍼파라미터 튜닝을 진행했다. 머신러닝에서는 하이퍼파라미터가 많아야 20가지 정도가 되었지만, 신경망에서는 층이 깊어질수록 튜닝해야 하는 하이퍼파라미터가 정말 많아진다. 이를 손으로 직접...

Modeling의 결과인 잔차분석을 통한 최종 위험지역 100개소 도출

5 minute read

지리적 가중 포아송 회귀를 최종 모델로 선택했고, 2개의 사고유형, 6개의 연령대별을 합쳐서 총 12개의 그룹에 대해 각각 다른 모델을 만들었다. 또한, 이 12개의 모델의 회귀계수를 ‘coef_사고유형_연령대’ 형식의 csv로 저장했다. 이 회귀계수 데이터에는 회귀계수 뿐만 아니...

Modeling Part.3

15 minute read

지리적 데이터에 적합하면서 이산형 자료를 잘 예측할 수 있는 지리적 가중 포아송 회귀 모델을 사용하여 사고유형별, 연령대별 사고건수를 예측해보자.