2ヶ月前
OCRフリーのドキュメント理解トランスフォーマー
Kim, Geewook ; Hong, Teakgyu ; Yim, Moonbin ; Nam, Jeongyeon ; Park, Jinyoung ; Yim, Jinyeong ; Hwang, Wonseok ; Yun, Sangdoo ; Han, Dongyoon ; Park, Seunghyun

要約
ドキュメント画像(例:請求書)の理解は、テキストの読み取りやドキュメント全体の理解など複雑な機能を必要とする核心的な課題であり、挑戦的でもあります。現在の視覚的ドキュメント理解(Visual Document Understanding: VDU)手法では、テキストの読み取りタスクを市販の光学文字認識(Optical Character Recognition: OCR)エンジンに外部委託し、OCR出力を用いて理解タスクに焦点を当てています。このようなOCRベースのアプローチは有望な性能を示していますが、1) OCRを使用するための高い計算コスト;2) 言語やドキュメントタイプに対するOCRモデルの柔軟性不足;3) OCRエラーが後続プロセスに伝播するという問題があります。これらの課題に対処するために、本論文では新しいOCRフリーのVDUモデルであるDonut(Document understanding transformer)を提案します。OCRフリーのVDU研究における最初の一歩として、単純なアーキテクチャ(すなわちTransformer)と事前学習目的(すなわちクロスエントロピー損失)を提案します。Donutは概念的には単純ですが効果的です。広範な実験と分析を通じて、単純なOCRフリーVDUモデルであるDonutが速度と精度において様々なVDUタスクで最先端の性能を達成することを示しています。さらに、我々は多言語や多領域での柔軟性を高めるためにモデルの事前学習に役立つ合成データジェネレータも提供します。コード、学習済みモデルおよび合成データは https://github.com/clovaai/donut で公開されています。