개인 Project 진행 상황

  • 현재 상황

    • AUC score: 0.8428
    • Rank: 33 /83
  • Feature engineering

    • n unique aggregation: order_id, product_id
    • time series 특성: customer 별 최대 구매한 연도와 월, 해당 월의 총 구매 가격
  • Hyperparameter

    • RandomForest 하이퍼 파라미터 실험
      • max_features: default(sqrt) $\rightarrow$ 0.1, 0.2 (총 특성 중 활용 비율)
      • n_estimators: 1000 $\rightarrow$ 2000
      • 두 실험 모두 성능이 소폭 하락하여서 원래 값으로 rollback (default, 1000)

Peer session

  • (건우님) 월별 데이터를 시계열로 ARIMA 모형으로 학습해 봄. 성능은 낮았음. 구매 내역이 띄엄띄엄 있는 경우가 많아서 학습이 잘 이루어지지 않은 것 같음.
  • feature engineering 방법 토의
    • description word2vec에서 feature를 몇 개 생성할 지를 정하는 파라미터의 중요성 (너무 높으면 오히려 성능 감소)
    • time series 정보를 담고 있는 feature 생성 (mode, diff)