17일 전

TDv2: 오프라인 수학 식 인식을 위한 새로운 트리 구조 디코더

{Yiqing Hu, Bo Ren, Chen Yang, Jianshu Zhang, Yunqing Li, Jun Du, Changjie Wu}
초록

최근 들어 수작업 수학식 인식(HMER) 분야에서 트리 구조를 포착할 수 있는 장점으로 인해 트리 디코더가 레이텍 스트링 디코더보다 더 인기를 끌고 있다. 그러나 기존의 트리 디코더는 트리 구조 레이블을 고정된 순서로 변환하는 방식을 사용하여, 트리 레이블의 다양한 표현 방식을 충분히 활용하지 못하는 한계가 있었다. 본 연구에서는 트리 구조 레이블을 보다 효과적으로 활용하기 위한 새로운 트리 디코더(TDv2)를 제안한다. 기존의 트리 디코더와 달리, 본 모델은 학습 및 추론 과정에서 노드의 각 분기(branch)에 대해 고정된 우선순위를 요구하지 않으며, 이로 인해 모델의 일반화 능력이 효과적으로 향상된다. 모델의 입력과 출력은 모두 트리 구조 레이블을 충분히 활용하므로, 디코딩 과정에서 부모 노드를 탐색할 필요가 없으며, 이는 디코딩 과정을 단순화하고 노드 예측에 도움이 되는 사전 지식(prior information)을 추가한다. 본 모델의 각 구성 요소의 효과는 체계적인 아블레이션 실험과 주의력 시각화 분석을 통해 검증되었다. 권위 있는 CROHME 14/16/19 데이터셋에서 본 방법은 최신 기술 수준(SOTA)의 성능을 달성하였다.