2달 전
DAN: 필기 문서 인식을 위한 세그먼테이션 없는 문서 주의 네트워크
Coquenet, Denis ; Chatelain, Clément ; Paquet, Thierry

초록
무제약 수기 텍스트 인식은 어려운 컴퓨터 비전 과제입니다. 전통적으로 이는 라인 분할과 그 다음에 이루어지는 텍스트 라인 인식을 결합한 두 단계 접근법으로 처리되었습니다. 처음으로, 우리는 수기 문서 인식 작업을 위한 단일 구조로 분할 과정이 없는 엔드투엔드 아키텍처를 제안합니다: 문서 주의 네트워크(Document Attention Network). 이 모델은 텍스트 인식뿐만 아니라, XML 형식과 유사하게 시작 태그와 종료 태그를 사용하여 텍스트 부분을 라벨링하도록 학습됩니다. 이 모델은 특징 추출을 위한 FCN 인코더와 순환적인 토큰별 예측 과정을 수행하기 위한 트랜스포머 디코더 층의 스택으로 구성되어 있습니다. 전체 텍스트 문서를 입력으로 받아 문자와 논리적 레이아웃 토큰을 순차적으로 출력합니다. 기존의 분할 기반 접근법과 달리, 이 모델은 어떠한 분할 라벨도 사용하지 않고 학습됩니다. 우리는 페이지 단위와 양면 페이지 단위에서 각각 3.43%와 3.70%의 CER(문자 오류율)을 달성하며, READ 2016 데이터셋에서 경쟁력 있는 결과를 얻었습니다. 또한 RIMES 2009 데이터셋에서도 페이지 단위로 4.54%의 CER을 달성하는 결과를 제공합니다.우리는 모든 소스 코드와 사전 학습된 모델 가중치를 https://github.com/FactoDeepLearning/DAN 에서 제공합니다.