15일 전

수직 주의망을 이용한 엔드투엔드 손글씨 단락 텍스트 인식

Denis Coquenet, Clément Chatelain, Thierry Paquet
수직 주의망을 이용한 엔드투엔드 손글씨 단락 텍스트 인식
초록

자유형 손글씨 텍스트 인식은 여전히 컴퓨터 비전 시스템에 도전 과제로 남아 있다. 문단 수준의 텍스트 인식은 전통적으로 두 가지 모델을 사용하여 수행된다. 첫 번째 모델은 텍스트 라인을 분할하고, 두 번째 모델은 각 라인의 텍스트를 인식한다. 본 연구에서는 하이브리드 어텐션을 활용한 통합형 엔드 투 엔드 모델을 제안한다. 이 모델은 문단 이미지를 라인 단위로 반복적으로 처리하도록 설계되어 있으며, 세 가지 모듈로 구성된다. 먼저, 인코더는 전체 문단 이미지로부터 특징 맵을 생성한다. 그 후, 어텐션 모듈은 반복적으로 수직 가중 마스크를 생성하여 현재 텍스트 라인의 특징에 집중하게 한다. 이를 통해 암묵적인 라인 분할을 수행할 수 있다. 각 텍스트 라인의 특징에 대해 디코더 모듈이 해당 문자 시퀀스를 인식함으로써 전체 문단의 인식이 완료된다. 제안한 모델은 RIMES, IAM, READ 2016의 세 가지 대표적인 데이터셋에서 문단 수준에서 최고 성능을 달성하였으며, 문자 오류율(Character Error Rate)은 각각 1.91%, 4.45%, 3.59%를 기록하였다. 코드 및 학습된 모델 가중치는 https://github.com/FactoDeepLearning/VerticalAttentionOCR 에서 공개되어 있다.

수직 주의망을 이용한 엔드투엔드 손글씨 단락 텍스트 인식 | 최신 연구 논문 | HyperAI초신경