2달 전

PosFormer: 복잡한 수식의 위치 정보를 활용한 손글씨 수학식 인식 모델

Guan, Tongkun ; Lin, Chengyu ; Shen, Wei ; Yang, Xiaokang
PosFormer: 복잡한 수식의 위치 정보를 활용한 손글씨 수학식 인식 모델
초록

수식 인식(HMER, Handwritten Mathematical Expression Recognition)은 디지털 교육과 자동화된 사무실 등 인간-기계 상호작용 시나리오에서 널리 활용되고 있습니다. 최근에는 이 작업을 수행하기 위해 이미지 수식의 LaTeX 시퀀스를 직접 예측하는 인코더-디코더 구조를 가진 시퀀스 기반 모델이 일반적으로 채택되었습니다. 그러나 이러한 방법들은 LaTeX가 제공하는 문법 규칙을 암시적으로만 학습하므로, 복잡한 구조적 관계와 다양한 필기체 스타일로 인해 기호 간의 위치와 계층적 관계를 정확히 설명하지 못할 가능성이 있습니다.이 문제를 해결하기 위해, 우리는 HMER에 사용될 위치 숲 변환기(PosFormer)를 제안합니다. 이 모델은 수식 인식과 위치 인식 두 가지 작업을 동시에 최적화하여, 위치 정보를 고려한 기호 특성 표현 학습을 명시적으로 가능하게 합니다. 구체적으로, 먼저 수학적 수식을 숲 구조로 모델링하고 기호 간의 상대적인 위치 관계를 분석하는 위치 숲(position forest)을 설계하였습니다. 추가적인 주석 없이도, 각 기호는 숲에서 그 상대적인 공간적 위치를 나타내는 위치 식별자(position identifier)가 할당됩니다.둘째로, 우리는 시퀀스 기반 디코더 구조에서 HMER에 대한 주의(attention)를 정확히 포착하기 위한 암시적 주의 보정 모듈(implicit attention correction module)을 제안하였습니다. 광범위한 실험 결과 PosFormer의 우수성이 입증되었으며, 단일 줄 CROHME 2014/2016/2019, 다중 줄 M2E, 그리고 복잡한 MNE 데이터셋에서 각각 2.03%/1.22%/2.00%, 1.83%, 4.62% 개선을 보여주었습니다. 이는 추가적인 지연 시간이나 계산 비용 없이 일관되게 최신 방법들을 능가하는 성능을 나타냈습니다.코드는 https://github.com/SJTU-DeepVisionLab/PosFormer 에서 확인할 수 있습니다.

PosFormer: 복잡한 수식의 위치 정보를 활용한 손글씨 수학식 인식 모델 | 최신 연구 논문 | HyperAI초신경