Boostcamp AI Tech (P4 - Day04)

멘토님과 함께 peer session

Q1. 수식인식 OCR 이라는 task가 text recognition의 하위 분야라고 하셨는데, 제가 참고했던 관련 논문 중 그나마 최신인 2017년 Image to Latex를 보면 Image captioning으로부터 아이디어를 많이 가져온 것 같더라구요. 둘 다 가능한 걸까요?
- A. 충분히 둘 다 가능한 접근법이라고 생각합니다. 대회를 진행하면서 두 접근 모두 시도해보면 좋을 것 같다는 생각이 듭니다.
Q2. Image to latex를 실제로 서비스하고 있는 웹앱을 찾아서 시험 삼아 여러 이미지를 넣어봤는데, 90도 돌린 이미지들도 정상적인 이미지와 같은 결과를 냅니다. 이것을 보아, 학습된 image to latex 모델에 이미지를 feed해주기 전에 뒤집힌 이미지를 정상적으로 바꿔주는 preprocessing을 처리해주는 과정이 포함되어 있는 것 같은데, 이번 competition 학습과 inference에 있어서도 이와 같은 preprocessing이 있으면 도움이 될 수 있을까요?
- A. 아주 좋은 생각이라고 봅니다. 학습의 훨씬 낮춰주면서 동시에 정확도 개선에 도움이 될 수 있을 것이라 봅니다.

Pattern Generation Strategies for Improving Recognition of Handwritten Mathematical Expressions
- Augmentation에 도움될 만한 동일 task 논문. 데이터를 다양하게 변형시켜 학습 성능 향상에 도움이 되는 “pattern generation” 전략. 2019년 논문이며, decoder는 transformer가 아닌 lstm을 사용하고 있음.
Multi-Scale Attention with Dense Encoder for Handwritten Mathematical Expression Recognition
- Encoder를 densely connected CNN 사용 + multi-scale attention 사용으로 성능 향상. 2018년 논문.