8ヶ月前

概要

多モーダル学習の登場は、ドキュメントAIに大きな進歩をもたらしました。現在、ドキュメントはテキスト情報と視覚情報を両方含む多モーダルなエンティティとして扱われ、下流の分析に利用されています。しかし、この分野での研究はしばしばテキスト側に焦点を当て、視覚空間を補助的な情報として使用しています。一部の研究では、ドキュメント画像理解のために純粋な視覚ベースの手法が探索されていますが、推論時にOCRで識別されたテキストが必要であるか、または学習プロセスでテキストと整合性が取れていない場合があります。そこで、私たちはドキュメント画像内のテキスト情報を活用して視覚タスクの性能を向上させるために特別に設計された新しい画像-テキストアライメント技術を提案します。この技術で訓練された私たちのドキュメントエンコーダモデルDoPTAは、推論時にOCRを必要とせずに、幅広いドキュメント画像理解タスクにおいて優れた性能を示します。さらに補助的な再構築目的と組み合わせることで、DoPTAは大幅に少ない事前学習計算量を使用しながらも大規模なモデルを一貫して上回ります。DoPTAはまた、D4LAおよびFUNSDという2つの困難なドキュメント視覚解析ベンチマークにおいて新たな最先端の結果を達成しています。

ソースPDF