TAMER: 수식 트리 인식을 위한 핸드라이트 수학적 표현 인식용 Tree-Aware Transformer

수식 인식에서 손글씨 수학적 표현 인식(HMER, Handwritten Mathematical Expression Recognition)은 자동 채점과 사무 자동화에 광범위한 응용을 가지고 있습니다. 그러나 기존의 시퀀스 기반 디코딩 방법들은 직접 $\LaTeX$ 시퀀스를 예측하는 데 어려움을 겪어, $\LaTeX$의 본질적인 트리 구조를 이해하고 모델링하는 데 한계가 있으며 종종 디코딩된 결과의 문법적 정확성을 보장하지 못합니다. 이러한 문제들을 해결하기 위해, 우리는 새로운 모델인 TAMER (Tree-Aware Transformer)를 제안합니다.TAMER는 트리 구조 인식 모듈(Tree-aware Module)을 도입하면서도 트랜스포머(Transformer)의 유연성과 효율적인 훈련을 유지합니다. TAMER는 시퀀스 예측과 트리 구조 예측 작업을 공동으로 최적화하여 시퀀스 디코딩 모델과 트리 디코딩 모델의 장점을 결합하며, 이로써 복잡한 수학적 표현 구조에 대한 모델의 이해력과 일반화 능력을 향상시킵니다. 추론 과정에서는 TAMER가 트리 구조 예측 점수 메커니즘(Tree Structure Prediction Scoring Mechanism)을 사용하여 생성된 $\LaTeX$ 시퀀스의 구조적 유효성을 개선합니다.CROHME 데이터셋에서 수행된 실험 결과는 TAMER가 전통적인 시퀀스 디코딩 및 트리 디코딩 모델들보다 우수한 성능을 보임을 입증하며, 특히 복잡한 수학적 구조 처리에서 최고 수준(SOTA, State-of-the-Art)의 성능을 달성하였습니다.