Peer session

  • (my) 환불 물품에 대해서 구매+환불 둘 다 제외
    • (진현님) 지워야 할 항목을 1로 가지는 새로운 culomn 생성 후
    • 데이터가 시작되는 시점 이전의 데이터 문제. (짝이 안 맞을 수 있음)
  • (주영님) 필요없는 feature 골라서 제외 후 학습했더니, 성능 더 떨어짐
    • (진현님) feature들과 target의 상관관계를 분석 후 낮은 것들 제외하는 방법
    • 서로에 대한 상관관계가 너무 높은 feature들은 하나만 남기고 제외
  • regression 문제로 접근할 시 문제점
    • (my) 제출하는 예측 형식이 binary가 아닌 ‘확률값’이기 때문에, regression으로 예측 시 ‘300을 넘을 지에 대한 확률’로 다시 바꿔야 하는데 그 부분이 매우 까다로울 거 같음. 예시 코드처럼 binary classification 문제로 접근 후 softmax 확률 값을 유도하는 것이 훨씬 쉬울 듯.
  • (진현님) 사람별 환불 가능성에 대한 정보도 예측에 포함하면 좋을 듯.
  • ‘merge’ 문법에 대한 이해