개인 Project 진행 상황

  • 현재 상황

    • AUC score: 0.8354
    • Rank: 14 /83
  • 누적합 feature 추가, 성능 향상

    • customer_id, product_id, order_id를 각각 기준으로 groupby 후 다음 세 항목을 cumsum한 feature를 생성 후 모델에 추가
      • total, quantity, price

Peer session

  • (종호님) train set start (2009-12), end (2010-12), test set start (2010-12), end (2011-12) 지정해서 학습했더니 성능 향상. aggregation에서 max, min 제외했더니 성능 향상.
  • (현우님) 오늘자 강의의 EDA, feature engineering에서 소개된 feature들을 싹 다 추가했더니 성능 많이 향상.
  • (현우님) aggregation에서 count는 feature 별로 동일함.
    • (my)
  • (철환님) 모든 월별 aggregation을 생성해 feature로 각각 추가. (총 527 column이 됨)
  • (my) 1월~12월 구매 내역 존재(1/0) 12개의 one-hot-encoding feature를 추가하면 성능 향상할 것 같음.
  • (my) NLP 자연어 생성, 다음 글자/문장 예측 task처럼, 매월 데이터를 input으로 받고 다음 달 label을 예측하는 모델은 어떨까? (누적 값들도 feature에 추가해주면서)
  • (철환님) 2010, 2011 2-fold validation. 1년 차이로 학습-예측 시 성능 괜찮지만, 2년 차이의 경우 많이 떨어짐.
    • (my) 재작년 데이터의 중요도가 떨어진다면, 작년 데이터를 n배로 oversampling해서 학습할 수도 있을 듯.