개인 Project 진행 상황
-
현재 상황
- AUC score: 0.8428
- Rank: 33 /83
-
Feature engineering
- n unique aggregation: order_id, product_id
- time series 특성: customer 별 최대 구매한 연도와 월, 해당 월의 총 구매 가격
-
Hyperparameter
- RandomForest 하이퍼 파라미터 실험
- max_features: default(sqrt) $\rightarrow$ 0.1, 0.2 (총 특성 중 활용 비율)
- n_estimators: 1000 $\rightarrow$ 2000
- 두 실험 모두 성능이 소폭 하락하여서 원래 값으로 rollback (default, 1000)
Peer session
- (건우님) 월별 데이터를 시계열로 ARIMA 모형으로 학습해 봄. 성능은 낮았음. 구매 내역이 띄엄띄엄 있는 경우가 많아서 학습이 잘 이루어지지 않은 것 같음.
- feature engineering 방법 토의
- description word2vec에서 feature를 몇 개 생성할 지를 정하는 파라미터의 중요성 (너무 높으면 오히려 성능 감소)
- time series 정보를 담고 있는 feature 생성 (mode, diff)