배달 데이터 프로젝트 결론
전처리, 모델링의 과정을 모두 거쳐서 최종적으로 정확도 73%, AUC가 0.8723인 모델을 만들었다. 배달 데이터 프로젝트의 마지막 파트에서는 분석 결과와 한계에 대해서 정리해보자.
Delivery Project 정리
최종 모델의 필요성
개발된 모델을 유용하게 사용할 이해관계자는 라이더, 매장으로 나눌 수 있다. 현재는 사회적 거리두기 제한이 완화되긴했지만, 코로나가 심할 때는 배달 음식이 성행했고 거리두기 완화와는 별개로 여전히 배달 음식을 찾는 사람들이 많다. 또한, 코로나의 여파로 배달 어플이 더욱 발전하고 매장 대신 배달을 해주는 라이더라는 직업이 매우 핫한 직업이 되었다.
만약 서울 특별시의 구별, 시간대별로 배달 주문의 정도(주문 많음, 보통, 적음)을 예측할 수 있다면
1) 라이더들의 입장에서는 어떤 시간대에 어떤 구에 주문이 많은지를 파악해서 배달 할 동선을 설계하고, 효율적인 배달 운행을 할 수 있다.
2) 매장의 입장에서는 자신이 속한 구에 어떤 시간대에 주문이 많은지를 파악해서 재고를 관리하거나 아르바이트를 탄력적으로 이용하는 등의 계획을 세울 수 있다.
가설 및 검증
1) 날씨(기온, 적설량, 미세먼지 등등)들은 주문의 정도에 큰 영향을 미칠 것이다.
= 미세먼지가 많거나 눈이 많이 오는 날은 사람들이 외출을 자제하고 배달 음식을 시켜먹을 것 같다.
검증: 밑의 그래프처럼 모델에 미치는 영향도를 변수별로 파악했을 때 기온을 제외한 나머지 날씨 변수들은 주문 정도에 큰 영향을 미치지 못했다. 따라서, 날씨 변수들이 주문의 정도에 큰 영향을 미칠 것이라는 가설은 틀렸다고 할 수 있다.
2) 구별 인구수가 더 많은 구가 주문을 더 많이 시켰을 것이다.
검증: 밑의 지도는 서울특별시의 구별 인구수를 나타낸다. 구별 인구수 지도는 색이 붉을수록 인구수가 많은 것, 구별 주문량 지도는 색이 붉을수록 주문량이 많은 것인데 두 지도의 분포가 확연히 차이난다. 인구수는 강서, 송파구가 많은 반면 주문량은 구로구가 제일 많았다. 따라서, 구별 인구수가 더 많은 구가 주문을 더 많이 시켰을 것이라는 가설로 틀렸다고 할 수 있다.
3) 축구경기가 있는 날이면 사람들이 치킨을 더 많이 시킬 것이다.
= 축구 국가대표 경기가 있을 때 평소보다 사람들이 치킨을 더 많이 시킬 것 같다.
검증: 밑의 그래프는 축구경기가 있는 날과 없는 날의 치킨의 주문 정도의 비율이다. 축구 경기가 있는 날 주문 많음의 비율이 축구 경기가 없는 날 주문 많음의 비율보다 약 11% 정도 큰 것을 보아 축구 경기가 있는 날이면 사람들이 치킨을 더 많이 시킬 것이라는 가설이 맞았다고 할 수 있다.
한계 및 느낀점
한정된 시간동안 프로젝트를 진행해서 몇 가지 한계가 존재했다. 먼저, 데이터가 동별로 되어 있지 않아서 더 세밀한 분석이 어려웠다. 서울 특별시는 구별로 되어 있긴 했지만, 동별로 더 세분화 되어있다면 더 정확하고 세밀한 분석이 가능했을 것 같다. 동별로 되어있었다면 주문의 정도가 아닌 주문의 건수를 예측하는 것도 괜찮은 방법이었을 것이다.
둘째, 최종 모델에서 기온 변수를 제외한 날씨 변수를 모두 제거하니까 수치형 변수로 사용할 수 있는 변수가 몇개 없어서 모델을 튜닝하는 것이 어려웠다. 기온 변수마저 쓸모가 없었다면 중복되는 데이터가 많았을 것이다.
셋째, Randomized Search CV로 오랜 시간 동안 최적화를 했지만, 오히려 성능이 떨어져서 결국 수동으로 하이퍼 파라미터를 튜닝했다. 시간이 더 주어졌다면 탐색 범위를 다시 잡고 교차검증을 수행할 수 있었을 것이다.
이번 프로젝트는 문제를 직접 정의하고, 데이터를 수집하고, 모델링 후 결론을 도출하는 프로세스로 진행되었는데 실생활에 유용한 모델을 만들기 위한 고민으로 많은 시간을 보냈다. 내가 만든 모델이 실제로 사용자들에게 필요한 모델인지, 내가 정의한 문제가 많은 사람들이 불편을 겪고 있거나 해결되었으면 좋겠다고 생각하는 문제인지 판단하는 것이 어려웠다. 하지만, 문제를 직접 정의하고, 가설을 세우고 검증 및 인사이트를 도출하는 것이 데이터 분석가에게 꼭 필요한 역량이고 과정이기 때문에 재미있었다. 필요하다고 판단된 데이터를 크롤링이나 데이터 포털에서 수집하고, 수집하는 과정에서 여러가지 스킬들을 배운 것 같아 뿌듯한 프로젝트였다.
비록 개인적으로 만족할만한 성능을 내진 못했지만 데이터 분석가가 실제로 수행하는 과정을 처음부터 끝까지 간략하게나마 경험해볼 수 있어서 좋았다. 앞으로도 여러가지 프로젝트를 진행해봐야겠다.