Hyeonseung's Blog

Section2 Sprint3 Note233 Bagging, Boosting, Feature Importances

6 minute read

RandomForest 모델은 기본 모델인 Decision Tree 모델을 각각 독립적으로 학습하여 모든 기본모델의 학습 결과를 반영해서 최종 타겟값을 예측하는 Bagging 모델이다. Bagging 외에도 다양한 앙상블 기법 중 Boosting과 Stacking이 있는데 이번 ...

Section2 Sprint3 Note231,232 ML Problems and Data Wrangling

1 minute read

지난 이틀동안 ML에서 일어날 수 있는 문제들과, Data Wrangling에 대해 배웠다. 또한, 불균형한 데이터를 처리하는 방법에 대해서도 알 수 있었다.

Section2 Sprint2 Note224 Cross Validation 과 Hyper Parameter Tuning

5 minute read

데이터셋이 충분히 크다면 hold-out 교차 검증을 할 수 있다. 하지만, hold-out 교차 검증을 하면 검증 데이터에서 한 번씩 밖에 학습된 모델의 성능을 측정할 수 있기 때문에 이 일반화 능력을 100퍼센트 신뢰하기 어렵다. 검증 데이터를 여러번 쓸 수 있다면 일반화 능력...

Section2 Sprint2 Note 223 Confusion Matrix, ROC curve, AUC

6 minute read

분류 모델의 성능을 평가하는 데에는 accuracy외에도 여러가지 지표가 있다. 이번 포스팅에서는 다양한 지표들과 데이터에 따라 더 중요한 지표에 대해 알아보자.

Section2 Sprint2 Note222 Random Forest, Various Encoder