Boostcamp AI Tech (P2 - Day03)
개인 Project 진행 상황
-
현재 상황
- AUC score: 0.8177
- Rank: 8 /83
-
Random forest 도입, 성능 향상
- Gradient boosting machine에 비해 비교적 overfitting 문제를 덜 겪는 Random forest classifier로 baseline 코드를 수정해 시도함 (4/12 학습 정리에 자세히 나와 있음)
- 하지만 predict() 로 예측 시 sklearn의 random forest는 0, 1 로 binary decision 결과를 반환하기 때문에, estimator 마다 다른 예측이 근간하는 확률값의 차이를 반영하지 못함. 결과적으로 성능 감소 (0.7289)
- 김종헌 님의 댓글 피드백을 바탕으로, decision 결과값이 아닌 probability 결과값을 반환하는 predict_proba() 로 전체 코드 수정. 다만 binary classification 인데도 두 클래스별 확률을 벡터로 반환하는 문제 때문에, predict_proba()[:, 1] 로 class 1 에 대한 확률값만 추출해야 했음. 결과적으로 기존 모델 (0.8100) 보다 0.0045 높은 AUC score 달성 (0.8145)
#val_preds = predict(x_val) val_preds = predict_proba(x_val)[:, 1]
- 하이퍼 파라미터 탐색 후 더 높은 성능 달성 (0.8177)
- n_estimator: 1000
- max_depth: 16
Peer session
- (종호님) 1차원 CNN으로 접근 중
- 데이터 형식은 어떻게? 월별 total sum만 사용 (우선)
- (도훈님) 300 임계값 변경 후 성능 향상
- (my) 구입 월과 환불 월이 다를 경우 처리할 필요 있어 보임
- (종호님) + ADJUST 데이터도 따로 처리할 필요 있어 보임
- (my 링크 공유)