주의력 기반 양방향 상호 학습을 통한 수식 인식

수학적 표현의 손글씨 인식은 주어진 이미지에서 자동으로 LaTeX 시퀀스를 생성하는 것을 목표로 합니다. 현재, 이 작업에서는 주로 어텐션 기반 인코더-디코더 모델이 널리 사용되고 있습니다. 이러한 모델들은 일반적으로 왼쪽에서 오른쪽(L2R) 방향으로 대상 시퀀스를 생성하지만, 오른쪽에서 왼쪽(R2L) 컨텍스트는 활용되지 않는 경우가 많습니다. 본 논문에서는 공유 인코더와 두 개의 병렬 역 디코더(L2R 및 R2L)로 구성된 어텐션 집계 기반 양방향 상호 학습 네트워크(Attention aggregation based Bi-directional Mutual learning Network, ABM)를 제안합니다. 두 디코더는 각 훈련 단계에서 일대일 지식 전달을 포함하는 상호 증류를 통해 강화되며, 이는 두 역 방향에서의 보완 정보를 최대한 활용합니다. 또한 다양한 크기의 수학적 기호를 처리하기 위해, 다중 스케일 커버리지 어텐션을 효과적으로 통합하는 어텐션 집계 모듈(Attention Aggregation Module, AAM)을 제안합니다. 특히 추론 단계에서는 모델이 이미 두 역 방향에서 지식을 학습하였으므로, 원래의 매개변수 크기와 추론 속도를 유지하면서 L2R 브랜치만을 사용하여 추론을 수행합니다. 광범위한 실험 결과, 제안된 접근법은 데이터 증강과 모델 앙상블 없이 CROHME 2014에서 56.85%, CROHME 2016에서 52.92%, CROHME 2019에서 53.96%의 인식 정확도를 달성하며, 현존하는 최고 성능 방법들을 크게 능가하였습니다. 소스 코드는 https://github.com/XH-B/ABM 에서 확인할 수 있습니다.