2달 전
문법 인식 네트워크를 활용한 수식 인식 연구
Yuan, Ye ; Liu, Xiao ; Dikubab, Wondimu ; Liu, Hui ; Ji, Zhilong ; Wu, Zhongqin ; Bai, Xiang

초록
수식의 손글씨 인식(HMER, Handwritten Mathematical Expression Recognition)은 많은 잠재적인 응용 분야를 가진 도전적인 과제입니다. 최근의 HMER 방법들은 인코더-디코더 구조를 통해 뛰어난 성능을 달성하였습니다. 그러나 이러한 방법들은 "문자 하나에서 다른 문자로" 예측하는 패러다임을 따르고 있어, 수학적 표현의 복잡한 구조나 난해한 손글씨로 인해 불가피하게 예측 오류가 발생합니다. 본 논문에서는 문법 정보를 인코더-디코더 네트워크에 처음으로 통합한 간단하고 효율적인 HMER 방법을 제안합니다. 구체적으로, 각 표현의 LaTeX 마크업 시퀀스를 파싱 트리로 변환하기 위한 문법 규칙 집합을 제시하며, 이를 깊은 신경망을 사용하여 마크업 시퀀스 예측 과정을 트리 순회 과정으로 모델링합니다. 이 방법을 통해 제안된 접근 방식은 표현의 문법 맥락을 효과적으로 설명할 수 있으며, HMER의 구조 예측 오류를 완화할 수 있습니다. 세 개의 벤치마크 데이터셋에 대한 실험 결과는 우리의 방법이 기존 연구보다 더 우수한 인식 성능을 보임을 입증하였습니다. 또한, 우리 방법의 유효성을 더욱 검증하기 위해 1만 명의 작성자로부터 수집된 10만 개의 손글씨 수학적 표현 이미지로 구성된 대규모 데이터셋을 생성하였습니다. 본 연구의 소스 코드, 새로운 데이터셋 및 사전 학습된 모델은 공개될 예정입니다.