개인 Project 진행 상황

  • 현재 상황

    • AUC score: 0.8177
    • Rank: 8 /83
  • Random forest 도입, 성능 향상

    1. Gradient boosting machine에 비해 비교적 overfitting 문제를 덜 겪는 Random forest classifier로 baseline 코드를 수정해 시도함 (4/12 학습 정리에 자세히 나와 있음)
    2. 하지만 predict() 로 예측 시 sklearn의 random forest는 0, 1 로 binary decision 결과를 반환하기 때문에, estimator 마다 다른 예측이 근간하는 확률값의 차이를 반영하지 못함. 결과적으로 성능 감소 (0.7289)
    3. 김종헌 님의 댓글 피드백을 바탕으로, decision 결과값이 아닌 probability 결과값을 반환하는 predict_proba() 로 전체 코드 수정. 다만 binary classification 인데도 두 클래스별 확률을 벡터로 반환하는 문제 때문에, predict_proba()[:, 1] 로 class 1 에 대한 확률값만 추출해야 했음. 결과적으로 기존 모델 (0.8100) 보다 0.0045 높은 AUC score 달성 (0.8145)
       #val_preds = predict(x_val)
       val_preds = predict_proba(x_val)[:, 1]
      
    4. 하이퍼 파라미터 탐색 후 더 높은 성능 달성 (0.8177)
      • n_estimator: 1000
      • max_depth: 16

Peer session