HyperAIHyperAI

Command Palette

Search for a command to run...

DoPTA: パッチテキストアライメントを用いたドキュメントレイアウト分析の改善

SR Nikitha ; Menta Tarun Ram ; Sarkar Mausoom

概要

多モーダル学習の登場は、ドキュメントAIに大きな進歩をもたらしました。現在、ドキュメントはテキスト情報と視覚情報を両方含む多モーダルなエンティティとして扱われ、下流の分析に利用されています。しかし、この分野での研究はしばしばテキスト側に焦点を当て、視覚空間を補助的な情報として使用しています。一部の研究では、ドキュメント画像理解のために純粋な視覚ベースの手法が探索されていますが、推論時にOCRで識別されたテキストが必要であるか、または学習プロセスでテキストと整合性が取れていない場合があります。そこで、私たちはドキュメント画像内のテキスト情報を活用して視覚タスクの性能を向上させるために特別に設計された新しい画像-テキストアライメント技術を提案します。この技術で訓練された私たちのドキュメントエンコーダモデルDoPTAは、推論時にOCRを必要とせずに、幅広いドキュメント画像理解タスクにおいて優れた性能を示します。さらに補助的な再構築目的と組み合わせることで、DoPTAは大幅に少ない事前学習計算量を使用しながらも大規模なモデルを一貫して上回ります。DoPTAはまた、D4LAおよびFUNSDという2つの困難なドキュメント視覚解析ベンチマークにおいて新たな最先端の結果を達成しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています