
초록
자유형 손글씨 텍스트 인식은 여전히 컴퓨터 비전 시스템에 도전 과제로 남아 있다. 문단 수준의 텍스트 인식은 전통적으로 두 가지 모델을 사용하여 수행된다. 첫 번째 모델은 텍스트 라인을 분할하고, 두 번째 모델은 각 라인의 텍스트를 인식한다. 본 연구에서는 하이브리드 어텐션을 활용한 통합형 엔드 투 엔드 모델을 제안한다. 이 모델은 문단 이미지를 라인 단위로 반복적으로 처리하도록 설계되어 있으며, 세 가지 모듈로 구성된다. 먼저, 인코더는 전체 문단 이미지로부터 특징 맵을 생성한다. 그 후, 어텐션 모듈은 반복적으로 수직 가중 마스크를 생성하여 현재 텍스트 라인의 특징에 집중하게 한다. 이를 통해 암묵적인 라인 분할을 수행할 수 있다. 각 텍스트 라인의 특징에 대해 디코더 모듈이 해당 문자 시퀀스를 인식함으로써 전체 문단의 인식이 완료된다. 제안한 모델은 RIMES, IAM, READ 2016의 세 가지 대표적인 데이터셋에서 문단 수준에서 최고 성능을 달성하였으며, 문자 오류율(Character Error Rate)은 각각 1.91%, 4.45%, 3.59%를 기록하였다. 코드 및 학습된 모델 가중치는 https://github.com/FactoDeepLearning/VerticalAttentionOCR 에서 공개되어 있다.