HyperAI超神经

摘要

理解文档图像（例如，发票）是一项核心但具有挑战性的任务，因为它需要复杂的功能，如读取文本和对文档的整体理解。当前的视觉文档理解（VDU）方法通常将读取文本的任务外包给现成的光学字符识别（OCR）引擎，并专注于利用OCR输出进行理解任务。尽管基于OCR的方法已经展现出有希望的性能，但它们存在以下问题：1）使用OCR导致的高计算成本；2）OCR模型在语言或文档类型上的灵活性不足；3）OCR错误传播到后续处理过程。为了解决这些问题，本文介绍了一种新的无OCR的VDU模型——Donut，即文档理解 Transformer （Document Understanding Transformer）。作为无OCR VDU研究的第一步，我们提出了一种简单的架构（即Transformer）和预训练目标（即交叉熵损失）。Donut在概念上简单却有效。通过广泛的实验和分析，我们展示了简单的无OCR VDU模型Donut在各种VDU任务中均达到了最先进的性能，无论是在速度还是准确性方面。此外，我们提供了一个合成数据生成器，有助于模型在多种语言和领域中灵活预训练。代码、训练好的模型和合成数据可在https://github.com/clovaai/donut获取。

摘要

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park

摘要

用 AI 构建 AI

HyperAI Newsletters

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park

摘要

用 AI 构建 AI

HyperAI Newsletters

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

无OCR的文档理解 Transformer

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park1 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

无OCR的文档理解 Transformer

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park1 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

无OCR的文档理解 Transformer

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park1 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park