HyperAIHyperAI

Command Palette

Search for a command to run...

ドキュメントレイアウト分析のグラフィカルアプローチ

Wang Jilin ; Krumdick Michael ; Tong Baojia ; Halim Hamima ; Sokolov Maxim ; Barda Vadym ; Vendryes Delphine ; Tanner Chris

概要

ドキュメントレイアウト分析(DLA)は、ドキュメント内の異なる意味的内容を検出し、これらの項目を適切なカテゴリ(例:テキスト、タイトル、図)に正しく分類するタスクである。DLAパイプラインは、ユーザーがドキュメントを構造化された機械読み取り可能な形式に変換し、その後多くの有用な下流タスクで利用できるようにする機能を提供する。既存の最先端(SOTA)のDLAモデルの多くは、ドキュメントを画像として表現し、電子的に生成されたPDFに含まれる豊富なメタデータを無視している。このメタデータを直接活用することで、各PDFページを構造化グラフとして表現し、DLA問題をグラフ分割と分類の問題として捉えることができる。本研究では、グラフベースのレイアウト分析モデル(Graph-based Layout Analysis Model: GLAM)を提案する。これは軽量なグラフニューラルネットワークであり、2つの挑戦的なDLAデータセットにおいて既存のSOTAモデルと同等以上の性能を持つ一方で、そのサイズは1桁小さい。特に400万パラメータのGLAMモデルは、DocLayNetデータセットの11クラス中5クラスにおいて1億4000万以上のパラメータを持つ最先端のコンピュータビジョンベースのモデルを超える性能を示した。これらの2つのモデルの単純なアンサンブルにより、DocLayNetで新しいSOTAが達成され、mAPが76.8から80.8へと向上した。全体的にGLAMはSOTAモデルよりも5倍以上効率的であり、DLAタスクにおける有利なエンジニアリング選択肢となっている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ドキュメントレイアウト分析のグラフィカルアプローチ | 記事 | HyperAI超神経