2달 전
양방향으로 훈련된 트랜스포머를 이용한 수식 인식
Zhao, Wenqi ; Gao, Liangcai ; Yan, Zuoyu ; Peng, Shuai ; Du, Lin ; Zhang, Ziyin

초록
인코더-디코더 모델은 최근 수식 인식 분야에서 큰 진전을 이룩하였습니다. 그러나 기존 방법들이 이미지 특성에 정확히 주의를 집중시키는 것은 여전히 어려운 문제입니다. 또한 이러한 인코더-디코더 모델들은 디코더 부분에서 RNN(Recurrent Neural Network) 기반 모델을 사용하는 경우가 많아, 긴 $\LaTeX{}$ 시퀀스 처리에 비효율적입니다. 본 논문에서는 RNN 기반 디코더를 대체하기 위해 트랜스포머 기반 디코더를 사용하여 전체 모델 구조를 매우 간결하게 만들었습니다. 더불어 양방향 언어 모델링의 잠재력을 최대한 활용할 수 있는 새로운 훈련 전략을 제안하였습니다. 데이터 증강을 사용하지 않는 여러 방법들과 비교한 실험 결과, 본 모델은 CROHME 2014에서 현재 최고 성능 방법들의 ExpRate를 2.23% 개선하였으며, CROHME 2016과 CROHME 2019에서도 각각 1.92%와 2.28% 개선된 것으로 나타났습니다.