Command Palette

Search for a command to run...

20日前

ドルフィン:異種アンカー・プロンプトを用いたドキュメント画像解析

Hao Feng Shu Wei Xiang Fei Wei Shi Yingdong Han et al

ドルフィン:異種アンカー・プロンプトを用いたドキュメント画像解析

要約

ドキュメント画像の解析は、テキスト段落、図、数式、表など複雑に交錯する要素を扱うため、困難な課題である。現在の手法は、専門的なエキスパートモデルを組み合わせるアプローチか、ページ単位のコンテンツを自己回帰的に直接生成するアプローチを採用しているが、いずれも良好な性能を発揮するものの、統合のオーバーヘッド、効率性のボトルネック、レイアウト構造の劣化といった課題を抱えている。こうした限界を克服するため、本研究では「Dolphin(Document Image Parsing via Heterogeneous Anchor Prompting)」という新しいマルチモーダルドキュメント画像解析モデルを提案する。Dolphinは、「分析→解析」のパラダイムに従い、第1段階で読み順に並んだレイアウト要素のシーケンスを生成する。これらの異種要素は、アノテーションの役割を果たし、タスク固有のプロンプトと連携して、第2段階において並列にコンテンツを解析するための入力としてDolphinに再投入される。Dolphinの学習のために、多粒度の解析タスクをカバーする3,000万件を超えるサンプルから構成される大規模なデータセットを構築した。既存の代表的ベンチマークおよび自作のベンチマークにおける包括的な評価結果から、Dolphinはページレベルおよび要素レベルの多様な設定において最先端の性能を達成するとともに、軽量なアーキテクチャと並列解析機構により、優れた効率性を実現していることが確認された。コードおよび事前学習済みモデルは、以下のURLにて公開されている。

コードリポジトリ

bytedance/dolphin
公式
pytorch
GitHubで言及

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ドルフィン:異種アンカー・プロンプトを用いたドキュメント画像解析 | 論文 | HyperAI超神経