2달 전

CoMER: Transformer 기반 수식 인식을 위한 커버리지 모델링

Zhao, Wenqi ; Gao, Liangcai
CoMER: Transformer 기반 수식 인식을 위한 커버리지 모델링
초록

트랜스포머 기반 인코더-디코더 아키텍처는 최근 수식의 손글씨 인식 분야에서 상당한 발전을 이룩하였습니다. 그러나 트랜스포머 모델은 여전히 커버리지 문제로 인해 그 표현 인식률(ExpRate)이 RNN 모델에 비해 열위에 있습니다. 커버리지 정보는 과거 단계의 정렬 정보를 기록하며, RNN 모델에서 효과적임이 입증되었습니다. 본 논문에서는 트랜스포머 디코더에서 커버리지 정보를 활용하는 CoMER(Coverage-based Mathematical Expression Recognition) 모델을 제안합니다. 구체적으로, 과거 정렬 정보를 활용하여 주의 가중치를 세밀하게 조정하면서 병렬성을 해치지 않는 새로운 주의력 정교화 모듈(Attention Refinement Module, ARM)을 제안합니다. 또한, 현재 및 이전 계층의 과거 정렬 정보를 활용하는 자기 커버리지(self-coverage)와 교차 커버리지(cross-coverage)를 제안하여 커버리지 정보의 활용을 극대화하였습니다. 실험 결과, CoMER는 현재 최고 성능 모델과 비교하여 ExpRate를 0.61%/2.09%/1.59% 향상시키며, CROHME 2014/2016/2019 테스트 세트에서 각각 59.33%/59.81%/62.97%의 성능을 달성하였습니다.

CoMER: Transformer 기반 수식 인식을 위한 커버리지 모델링 | 최신 연구 논문 | HyperAI초신경