Peer session
한 일
- 배철환: SRN 성능 안나옴
- 개선점 : ignore_index 안한거, log 안찍은거
- CSTR 완성(하면 뭐하니..)
- 임기홍: AIDA dataset 가져오는중
- upstage dataset에 없는 Token이 들어간 data는 안씀.
- 용량큼(11GB) 몇번 터트림.AIDA말고 또 추가하는건 힘들꺼같음
- 윤준호
- 서버 재할당 받고 version 충돌 없게 torchvision의 transforms만 사용해서 학습 중
- transforms
- Resize(width, height 둘 다 2/3)
- choice([RandomRotation(15), RandomAffine(degrees=10, shear=10)])
- ColorJitter(0.2, 0.2)
- CNN dense block depth 16 -> 32로 변경 성공
- paper에서 제시된 depth로 맞춰줌
- growth_rate, feature_num 등 size 맞춰주는 데서 문제가 있었는데 마지막 conv layer의 output channel을 output_channel(256)로 fix해주면 잘 맞춰짐
- 조호성
- CSTR SPPN부분 남음
- 서버 재할당 받았더니 GPU가 할당이 안됨
- 김현우
- Bag of Tricks 실험
- 세로 사진을 가로로 변환하여 학습, inference, 즉 data ration <1 보다 작은 경우 -> rotate 킴
- 50 에폭 테스트 후 기본 베이스 라인 모델과 앙상블하여 제출 예정
- 서준배
- small-satrn(https://github.com/Media-Smart/vedastr)의 ‘adaptive2DpositionEncoder’로 교체해서 학습하는중
- scale_factor_generate가 추가된것
- 세로로 돌아간 이미지도 잘 인식할 것이 기대됨
앞으로 할 일
- 데이터 추가 후 긴 학습 (화이팅!!)
- 학습ing
- dim 증가해보기
- layer는 올리니 떨어졌다는 의견있음(attention모델)
- adaptiv기대가 됩니다(부담이됩니다)
- Loss 탐색 (Focal loss: 틀린 데이터에 페널티 더 주는 식으로 개선될지)
질문
- 현재 시장에서 OCR 기술을 얼마나 사용하고 있을까?
- B2B 시장에서 사용함
- 구글 렌즈 앱 https://play.google.com/store/apps/details?id=com.google.ar.lens&hl=ko&gl=US
회고록
좋았던점😊
- 드디어 서버 저장 이슈가 해결되어 대회에 참여하게 되어 기쁨
- 주말에는 데이터 쓸수 있을꺼 같음
- 새로운 분야를 알게 되었음
아쉬운점😢
- CUDA 업그레이드가 안되어 기능 추가하기 어려움
- 베이스코드가 완성도가 떨어진다
- 대회에 CV 분야가 거의 없고 NLP 분야라 적응이 어렵고 기대했던 바와 다름
- 용량때문에라도 이건 개인이 할게 아니다.
도전할것
느낀점
- OCR 은 어렵다
- 생각보다 수식이 기존 OCR 방법론들로 잘 되는게 신기하다
- 수정한다고 오를지 잘 모르겠다