2ヶ月前

ドキュメントレイアウト分析のためのビジョングリッドトランスフォーマー

Da, Cheng ; Luo, Chuwei ; Zheng, Qi ; Yao, Cong
ドキュメントレイアウト分析のためのビジョングリッドトランスフォーマー
要約

ドキュメント事前学習モデルとグリッドベースモデルは、ドキュメントAIの様々なタスクにおいて非常に効果的であることが示されています。しかし、ドキュメントレイアウト分析(DLA)タスクでは、既存のドキュメント事前学習モデルでさえ、マルチモーダルな方法で事前学習されたものでも、通常はテキスト特徴量または視覚特徴量のいずれかに依存しています。DLA用のグリッドベースモデルはマルチモーダルですが、事前学習の効果を大きく軽視しています。本論文では、2つのストリームを持つビジョン・グリッド・トランスフォーマー(VGT)を提案し、2次元トークンレベルおよびセグメントレベルの意味理解のためにグリッド・トランスフォーマー(GiT)が提案され、事前学習されています。さらに、これまでで最も多様かつ詳細な手動アノテーションベンチマークである新しいデータセットD$^4$LAを収集し公開しました。実験結果は、提案されたVGTモデルがDLAタスクにおいて新たな最先端の結果を達成していることを示しており、例えばPubLayNet($95.7\%$$\rightarrow$$96.2\%$)、DocBank($79.6\%$$\rightarrow$$84.1\%$)、およびD$^4$LA($67.7\%$$\rightarrow$$68.8\%$)などの改善が見られました。コードやモデル、そしてD$^4$LAデータセットは公開される予定です (~\url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery})。注:URL部分はそのまま残していますが、一般的には日本語文献ではURLを脚注として扱うことが多いです。ただし、この文脈では直接文中に記載する方が適切かもしれません。

ドキュメントレイアウト分析のためのビジョングリッドトランスフォーマー | 最新論文 | HyperAI超神経