2달 전

OCR-free Document Understanding Transformer

Kim, Geewook ; Hong, Teakgyu ; Yim, Moonbin ; Nam, Jeongyeon ; Park, Jinyoung ; Yim, Jinyeong ; Hwang, Wonseok ; Yun, Sangdoo ; Han, Dongyoon ; Park, Seunghyun
OCR-free Document Understanding Transformer
초록

문서 이미지(예: 영수증) 이해는 복잡한 기능인 텍스트 읽기와 문서의 전체적인 이해가 필요하기 때문에 핵심적이면서도 어려운 작업입니다. 현재 시각적 문서 이해(VDU, Visual Document Understanding) 방법들은 텍스트 읽기 작업을 상용 광학 문자 인식(OCR, Optical Character Recognition) 엔진에 위탁하고 OCR 출력을 이용하여 이해 작업에 집중합니다. 이러한 OCR 기반 접근법은 유망한 성능을 보여주었지만, 1) OCR 사용으로 인한 높은 계산 비용; 2) 언어나 문서 유형에 대한 OCR 모델의 유연성 부족; 3) 후속 프로세스로의 OCR 오류 전파 등의 문제를 겪고 있습니다. 이러한 문제들을 해결하기 위해 본 논문에서는 새로운 OCR-free VDU 모델인 Donut(문서 이해 변환기, Document understanding transformer)을 소개합니다. OCR-free VDU 연구의 첫 단계로서, 우리는 사전 학습 목표(즉, 크로스 엔트로피 손실)를 갖춘 간단한 아키텍처(즉, 변환기, Transformer)를 제안합니다. Donut은 개념적으로 간단하지만 효과적입니다. 광범위한 실험과 분석을 통해 우리는 간단한 OCR-free VDU 모델인 Donut이 속도와 정확성 면에서 다양한 VDU 작업에서 최신 수준의 성능을 달성함을 보여줍니다. 또한, 모델의 사전 학습이 다양한 언어와 도메인에서 유연해질 수 있도록 도움을 주는 합성 데이터 생성기를 제공합니다. 코드, 학습된 모델 및 합성 데이터는 https://github.com/clovaai/donut 에서 확인할 수 있습니다.

OCR-free Document Understanding Transformer | 최신 연구 논문 | HyperAI초신경