8ヶ月前

ドキュメント理解

マルチモーダル

コンピュータビジョン

自然言語処理

マルチモーダル

コンピュータビジョン

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park

概要

ドキュメント画像（例：請求書）の理解は、テキストの読み取りやドキュメント全体の理解など複雑な機能を必要とする核心的な課題であり、挑戦的でもあります。現在の視覚的ドキュメント理解（Visual Document Understanding: VDU）手法では、テキストの読み取りタスクを市販の光学文字認識（Optical Character Recognition: OCR）エンジンに外部委託し、OCR出力を用いて理解タスクに焦点を当てています。このようなOCRベースのアプローチは有望な性能を示していますが、1) OCRを使用するための高い計算コスト；2) 言語やドキュメントタイプに対するOCRモデルの柔軟性不足；3) OCRエラーが後続プロセスに伝播するという問題があります。これらの課題に対処するために、本論文では新しいOCRフリーのVDUモデルであるDonut（Document understanding transformer）を提案します。OCRフリーのVDU研究における最初の一歩として、単純なアーキテクチャ（すなわちTransformer）と事前学習目的（すなわちクロスエントロピー損失）を提案します。Donutは概念的には単純ですが効果的です。広範な実験と分析を通じて、単純なOCRフリーVDUモデルであるDonutが速度と精度において様々なVDUタスクで最先端の性能を達成することを示しています。さらに、我々は多言語や多領域での柔軟性を高めるためにモデルの事前学習に役立つ合成データジェネレータも提供します。コード、学習済みモデルおよび合成データは https://github.com/clovaai/donut で公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ドキュメント理解

マルチモーダル

コンピュータビジョン

自然言語処理

マルチモーダル

コンピュータビジョン

Kim Geewook ; Hong Teakgyu ; Yim Moonbin ; Nam Jeongyeon ; Park Jinyoung ; Yim Jinyeong ; Hwang Wonseok ; Yun Sangdoo ; Han Dongyoon ; Park

概要

ドキュメント画像（例：請求書）の理解は、テキストの読み取りやドキュメント全体の理解など複雑な機能を必要とする核心的な課題であり、挑戦的でもあります。現在の視覚的ドキュメント理解（Visual Document Understanding: VDU）手法では、テキストの読み取りタスクを市販の光学文字認識（Optical Character Recognition: OCR）エンジンに外部委託し、OCR出力を用いて理解タスクに焦点を当てています。このようなOCRベースのアプローチは有望な性能を示していますが、1) OCRを使用するための高い計算コスト；2) 言語やドキュメントタイプに対するOCRモデルの柔軟性不足；3) OCRエラーが後続プロセスに伝播するという問題があります。これらの課題に対処するために、本論文では新しいOCRフリーのVDUモデルであるDonut（Document understanding transformer）を提案します。OCRフリーのVDU研究における最初の一歩として、単純なアーキテクチャ（すなわちTransformer）と事前学習目的（すなわちクロスエントロピー損失）を提案します。Donutは概念的には単純ですが効果的です。広範な実験と分析を通じて、単純なOCRフリーVDUモデルであるDonutが速度と精度において様々なVDUタスクで最先端の性能を達成することを示しています。さらに、我々は多言語や多領域での柔軟性を高めるためにモデルの事前学習に役立つ合成データジェネレータも提供します。コード、学習済みモデルおよび合成データは https://github.com/clovaai/donut で公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

OCRフリーのドキュメント理解トランスフォーマー | 記事 | HyperAI超神経