Recent posts

Section2 Sprint3 Note233 Bagging, Boosting, Feature Importances

6 minute read

RandomForest 모델은 기본 모델인 Decision Tree 모델을 각각 독립적으로 학습하여 모든 기본모델의 학습 결과를 반영해서 최종 타겟값을 예측하는 Bagging 모델이다. Bagging 외에도 다양한 앙상블 기법 중 Boosting과 Stacking이 있는데 이번 ...

Section2 Sprint2 Note224 Cross Validation 과 Hyper Parameter Tuning

5 minute read

데이터셋이 충분히 크다면 hold-out 교차 검증을 할 수 있다. 하지만, hold-out 교차 검증을 하면 검증 데이터에서 한 번씩 밖에 학습된 모델의 성능을 측정할 수 있기 때문에 이 일반화 능력을 100퍼센트 신뢰하기 어렵다. 검증 데이터를 여러번 쓸 수 있다면 일반화 능력...

Section2 Sprint2 Note222 Random Forest, Various Encoder

5 minute read

Decision Tree는 비단조 데이터, 특성상호작용과 관계 없이 좋은 성능을 낸다는 장점이 있다. 한 개의 트리만을 사용하기 때문에 한 노드에서 생긴 에러가 하부 노드에 계속 영향을 줄 수 있고, Tree를 너무 깊게 학습하여 과적합이 일어날 수 있다. 이를 해소하기 위해 최대...