Boostcamp AI Tech (P2 - Day02)

Peer session

(my) 환불 물품에 대해서 구매+환불 둘 다 제외
- (진현님) 지워야 할 항목을 1로 가지는 새로운 culomn 생성 후
- 데이터가 시작되는 시점 이전의 데이터 문제. (짝이 안 맞을 수 있음)
(주영님) 필요없는 feature 골라서 제외 후 학습했더니, 성능 더 떨어짐
- (진현님) feature들과 target의 상관관계를 분석 후 낮은 것들 제외하는 방법
- 서로에 대한 상관관계가 너무 높은 feature들은 하나만 남기고 제외
regression 문제로 접근할 시 문제점
- (my) 제출하는 예측 형식이 binary가 아닌 ‘확률값’이기 때문에, regression으로 예측 시 ‘300을 넘을 지에 대한 확률’로 다시 바꿔야 하는데 그 부분이 매우 까다로울 거 같음. 예시 코드처럼 binary classification 문제로 접근 후 softmax 확률 값을 유도하는 것이 훨씬 쉬울 듯.
(진현님) 사람별 환불 가능성에 대한 정보도 예측에 포함하면 좋을 듯.
‘merge’ 문법에 대한 이해
- (진현님) 참고 링크