Boostcamp AI Tech (P2 - Day07)

개인 Project 진행 상황

현재 상황
- AUC score: 0.8428
- Rank: 33 /83
Feature engineering
- n unique aggregation: order_id, product_id
- time series 특성: customer 별 최대 구매한 연도와 월, 해당 월의 총 구매 가격
Hyperparameter
- RandomForest 하이퍼 파라미터 실험
  - max_features: default(sqrt) $\rightarrow$ 0.1, 0.2 (총 특성 중 활용 비율)
  - n_estimators: 1000 $\rightarrow$ 2000
  - 두 실험 모두 성능이 소폭 하락하여서 원래 값으로 rollback (default, 1000)

Peer session

(건우님) 월별 데이터를 시계열로 ARIMA 모형으로 학습해 봄. 성능은 낮았음. 구매 내역이 띄엄띄엄 있는 경우가 많아서 학습이 잘 이루어지지 않은 것 같음.
feature engineering 방법 토의
- description word2vec에서 feature를 몇 개 생성할 지를 정하는 파라미터의 중요성 (너무 높으면 오히려 성능 감소)
- time series 정보를 담고 있는 feature 생성 (mode, diff)

Apr 20, 2021