2 个月前
无OCR的文档理解变压器
Kim, Geewook ; Hong, Teakgyu ; Yim, Moonbin ; Nam, Jeongyeon ; Park, Jinyoung ; Yim, Jinyeong ; Hwang, Wonseok ; Yun, Sangdoo ; Han, Dongyoon ; Park, Seunghyun

摘要
理解文档图像(例如,发票)是一项核心但具有挑战性的任务,因为它需要复杂的功能,如读取文本和对文档的整体理解。当前的视觉文档理解(VDU)方法通常将读取文本的任务外包给现成的光学字符识别(OCR)引擎,并专注于利用OCR输出进行理解任务。尽管基于OCR的方法已经展现出有希望的性能,但它们存在以下问题:1)使用OCR导致的高计算成本;2)OCR模型在语言或文档类型上的灵活性不足;3)OCR错误传播到后续处理过程。为了解决这些问题,本文介绍了一种新的无OCR的VDU模型——Donut,即文档理解变压器(Document Understanding Transformer)。作为无OCR VDU研究的第一步,我们提出了一种简单的架构(即Transformer)和预训练目标(即交叉熵损失)。Donut在概念上简单却有效。通过广泛的实验和分析,我们展示了简单的无OCR VDU模型Donut在各种VDU任务中均达到了最先进的性能,无论是在速度还是准确性方面。此外,我们提供了一个合成数据生成器,有助于模型在多种语言和领域中灵活预训练。代码、训练好的模型和合成数据可在https://github.com/clovaai/donut获取。