NAMER: Non-Autoregressive Modeling for Handwritten Mathematical Expression Recognition NAMER: 비자기회귀 모델링을 이용한 수식 인식

최근, 수식 인식(HMER, Handwritten Mathematical Expression Recognition)은 문서 이해의 다양한 응용 분야로 인해 패턴 인식 분야에서 많은 주목을 받고 있습니다. 현재의 방법들은 일반적으로 HMER를 자기 회귀(AR, Autoregressive) 인코더-디코더 프레임워크 내에서 이미지-시퀀스 생성 작업으로 접근합니다. 그러나 이러한 접근 방식은 다음과 같은 여러 가지 단점이 있습니다: 1) 전체 언어 맥락 부족으로 현재 디코딩 단계를 넘어서 정보 활용이 제한됨; 2) AR 디코딩 과정 중 오류 누적; 3) 느린 디코딩 속도. 이러한 문제들을 해결하기 위해, 본 논문에서는 HMER를 위한 새로운 하향식 비자기회귀(NAR, Non-AutoRegressive) 모델링 접근 방식인 NAMER를 처음으로 제안합니다. NAMER는 시각 인지 토크나이저(VAT, Visual Aware Tokenizer)와 병렬 그래프 디코더(PGD, Parallel Graph Decoder)로 구성됩니다. 먼저 VAT는 가시적인 기호와 로컬 관계를 대략적인 수준에서 토큰화합니다. 그 다음 PGD는 모든 토큰을 정교하게 개선하고, 포괄적인 시각적 및 언어적 맥락을 활용하여 병렬로 연결성을 설정합니다. CROHME 2014/2016/2019 및 HME100K 데이터셋에 대한 실험 결과, NAMER는 ExpRate에서 기존 최신(SOTA, State-of-the-Art) 방법론보다 1.93%/2.35%/1.49%/0.62% 높은 성능을 보였으며, 디코딩 시간과 전체 FPS에서도 각각 13.7배와 6.7배 더 빠른 속도를 달성함으로써 그 효과성과 효율성이 입증되었습니다.