HyperAIHyperAI

Command Palette

Search for a command to run...

ドキュメントレイアウト分析のためのビジョングリッドトランスフォーマー

Cheng Da Chuwei Luo Qi Zheng Cong Yao

概要

ドキュメント事前学習モデルとグリッドベースモデルは、ドキュメントAIの様々なタスクにおいて非常に効果的であることが示されています。しかし、ドキュメントレイアウト分析(DLA)タスクでは、既存のドキュメント事前学習モデルでさえ、マルチモーダルな方法で事前学習されたものでも、通常はテキスト特徴量または視覚特徴量のいずれかに依存しています。DLA用のグリッドベースモデルはマルチモーダルですが、事前学習の効果を大きく軽視しています。本論文では、2つのストリームを持つビジョン・グリッド・トランスフォーマー(VGT)を提案し、2次元トークンレベルおよびセグメントレベルの意味理解のためにグリッド・トランスフォーマー(GiT)が提案され、事前学習されています。さらに、これまでで最も多様かつ詳細な手動アノテーションベンチマークである新しいデータセットD4^44LAを収集し公開しました。実験結果は、提案されたVGTモデルがDLAタスクにおいて新たな最先端の結果を達成していることを示しており、例えばPubLayNet(95.7\%$$\rightarrow$$96.2\%)、DocBank(79.6\%$$\rightarrow$$84.1\%)、およびD4^44LA(67.7\%$$\rightarrow$$68.8\%)などの改善が見られました。コードやモデル、そしてD4^44LAデータセットは公開される予定です (~\url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery})。注:URL部分はそのまま残していますが、一般的には日本語文献ではURLを脚注として扱うことが多いです。ただし、この文脈では直接文中に記載する方が適切かもしれません


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています