Peer session

한 일

  • 배철환: SRN 성능 안나옴
    • 개선점 : ignore_index 안한거, log 안찍은거
    • CSTR 완성(하면 뭐하니..)
  • 임기홍: AIDA dataset 가져오는중
    • upstage dataset에 없는 Token이 들어간 data는 안씀.
    • 용량큼(11GB) 몇번 터트림.AIDA말고 또 추가하는건 힘들꺼같음
      • 서버에서 압축풀고싶었는데 풀어서 올림…
  • 윤준호
    • 서버 재할당 받고 version 충돌 없게 torchvision의 transforms만 사용해서 학습 중
      • transforms
        • Resize(width, height 둘 다 2/3)
        • choice([RandomRotation(15), RandomAffine(degrees=10, shear=10)])
        • ColorJitter(0.2, 0.2)
    • CNN dense block depth 16 -> 32로 변경 성공
      • paper에서 제시된 depth로 맞춰줌
      • growth_rate, feature_num 등 size 맞춰주는 데서 문제가 있었는데 마지막 conv layer의 output channel을 output_channel(256)로 fix해주면 잘 맞춰짐
  • 조호성
    • CSTR SPPN부분 남음
    • 서버 재할당 받았더니 GPU가 할당이 안됨
  • 김현우
    • Bag of Tricks 실험
    • 세로 사진을 가로로 변환하여 학습, inference, 즉 data ration <1 보다 작은 경우 -> rotate 킴
    • 50 에폭 테스트 후 기본 베이스 라인 모델과 앙상블하여 제출 예정
  • 서준배
    • small-satrn(https://github.com/Media-Smart/vedastr)의 ‘adaptive2DpositionEncoder’로 교체해서 학습하는중
      • scale_factor_generate가 추가된것
      • 세로로 돌아간 이미지도 잘 인식할 것이 기대됨

앞으로 할 일

  • 데이터 추가 후 긴 학습 (화이팅!!)
  • 학습ing
    • dim 증가해보기
    • layer는 올리니 떨어졌다는 의견있음(attention모델)
    • adaptiv기대가 됩니다(부담이됩니다)
  • Loss 탐색 (Focal loss: 틀린 데이터에 페널티 더 주는 식으로 개선될지)

질문

  • 현재 시장에서 OCR 기술을 얼마나 사용하고 있을까?
    • B2B 시장에서 사용함
    • 구글 렌즈 앱 https://play.google.com/store/apps/details?id=com.google.ar.lens&hl=ko&gl=US

회고록

좋았던점😊

  • 드디어 서버 저장 이슈가 해결되어 대회에 참여하게 되어 기쁨
  • 주말에는 데이터 쓸수 있을꺼 같음
  • 새로운 분야를 알게 되었음

아쉬운점😢

  • CUDA 업그레이드가 안되어 기능 추가하기 어려움
  • 베이스코드가 완성도가 떨어진다
  • 대회에 CV 분야가 거의 없고 NLP 분야라 적응이 어렵고 기대했던 바와 다름
  • 용량때문에라도 이건 개인이 할게 아니다.

도전할것

  • 모델, 하이퍼파라미터 탐색

느낀점

  • OCR 은 어렵다
  • 생각보다 수식이 기존 OCR 방법론들로 잘 되는게 신기하다
  • 수정한다고 오를지 잘 모르겠다