
초록
언어학적 지식은 문자 시퀀스를 정교화하는 데 있어 의미 정보를 제공함으로써 장면 내 텍스트 인식에 큰 이점을 가져왔다. 그러나 기존의 방법들은 언어학적 지식을 출력 시퀀스에 개별적으로 적용함으로써, 시각적 특징을 이해하는 데 있어 의미 정보를 충분히 활용하지 못했다. 본 논문에서는 시각적 특징과 의미적 특징 간의 상호작용을 가능하게 하여 더 우수한 인식 성능을 달성하는 새로운 방법, 즉 다중 모달 텍스트 인식 네트워크(Multi-modAl Text Recognition Network, MATRN)를 제안한다. 구체적으로 MATRN은 시각적 특징과 의미적 특징 쌍을 식별하고, 공간 정보를 의미적 특징에 인코딩한다. 이 공간 인코딩을 기반으로, 한 모달리티의 관련 특징을 참조하여 다른 모달리티의 특징을 강화한다. 더불어, 학습 단계에서 문자에 관련된 시각적 단서를 가리며 의미적 특징을 시각적 특징에 통합하도록 유도하는 전략을 도입한다. 실험 결과, MATRN은 7개의 벤치마크에서 기존 최고 수준의 성능을 크게 앞서며 우수한 결과를 보였으며, 단순한 두 모달리티의 결합은 상대적으로 낮은 개선 효과를 보였다. 추가적인 아블레이션 연구를 통해 제안한 구성 요소들의 효과성을 입증하였다. 본 연구의 구현 코드는 https://github.com/wp03052/MATRN 에서 공개되어 있다.