2달 전
카운팅과 HMER가 만나다: 수식 인식을 위한 카운팅 인지 네트워크
Li, Bohan ; Yuan, Ye ; Liang, Dingkang ; Liu, Xiao ; Ji, Zhilong ; Bai, Jinfeng ; Liu, Wenyu ; Bai, Xiang

초록
최근 대부분의 수식 인식(HMER) 방법들은 주어진 공식 이미지에서 직접 마크업 시퀀스를 예측하는 애텐션 메커니즘을 사용하는 인코더-디코더 네트워크를 채택하고 있습니다. 그러나 이러한 방법들은 글쓰기 스타일이나 공간 배치의 큰 차이로 인해 애텐션 결과가 종종 부정확하기 때문에, 복잡한 구조의 공식을 정확히 읽거나 긴 마크업 시퀀스를 생성하는 데 실패할 수 있습니다. 이 문제를 완화하기 위해, 우리는 두 가지 작업인 HMER와 기호 카운팅을 공동으로 최적화하는 비전형적인 네트워크인 Counting-Aware Network(CAN)을 제안합니다.특히, 우리는 기호 레벨 위치 주석 없이 각 기호 클래스의 개수를 예측할 수 있는 약간 지도된 카운팅 모듈을 설계하고, 이를 일반적인 애텐션 기반 인코더-디코더 모델에 통합하여 HMER을 수행하도록 합니다. HMER 벤치마크 데이터셋에서 수행한 실험은 공동 최적화와 카운팅 결과가 인코더-디코더 모델의 예측 오류 수정에 유익하다는 것을 검증하며, CAN이 기존 최신 방법들을 일관되게 능가한다는 것을 보여줍니다. 특히, HMER용 인코더-디코더 모델과 비교했을 때 제안된 카운팅 모듈로 인한 추가 시간 비용은 미미합니다. 소스 코드는 https://github.com/LBH1024/CAN에서 제공됩니다.