15일 전
TrOCR: 사전 훈련된 모델을 활용한 기반 트랜스포머의 광학 문자 인식
Minghao Li, Tengchao Lv, Jingye Chen, Lei Cui, Yijuan Lu, Dinei Florencio, Cha Zhang, Zhoujun Li, Furu Wei

초록
문서 디지털화를 위한 텍스트 인식은 오랜 기간 동안 연구되어온 문제이다. 기존의 접근 방식은 일반적으로 이미지 이해를 위해 CNN을, 문자 수준의 텍스트 생성을 위해 RNN을 기반으로 구축한다. 또한 전반적인 정확도를 향상시키기 위해 후처리 단계에서 별도의 언어 모델이 추가로 필요하다. 본 논문에서는 사전 훈련된 이미지 트랜스포머와 텍스트 트랜스포머 모델을 활용한 엔드투엔드 텍스트 인식 방법, 즉 TrOCR을 제안한다. TrOCR는 이미지 이해와 워드피스(WordPiece) 수준의 텍스트 생성에 모두 트랜스포머 아키텍처를 활용한다. TrOCR 모델은 간단하면서도 효과적이며, 대규모 합성 데이터를 이용해 사전 훈련하고, 인간 레이블이 부여된 데이터셋을 통해 미세조정할 수 있다. 실험 결과, TrOCR 모델은 인쇄체, 손글씨, 장면 텍스트 인식 작업에서 현재 최고 성능을 기록하는 모델들을 모두 상회함을 확인했다. TrOCR 모델과 소스 코드는 공개적으로 \url{https://aka.ms/trocr}에서 제공된다.