2ヶ月前

ドキュメントレイアウト分析のグラフィカルアプローチ

Wang, Jilin ; Krumdick, Michael ; Tong, Baojia ; Halim, Hamima ; Sokolov, Maxim ; Barda, Vadym ; Vendryes, Delphine ; Tanner, Chris
ドキュメントレイアウト分析のグラフィカルアプローチ
要約

ドキュメントレイアウト分析(DLA)は、ドキュメント内の異なる意味的内容を検出し、これらの項目を適切なカテゴリ(例:テキスト、タイトル、図)に正しく分類するタスクである。DLAパイプラインは、ユーザーがドキュメントを構造化された機械読み取り可能な形式に変換し、その後多くの有用な下流タスクで利用できるようにする機能を提供する。既存の最先端(SOTA)のDLAモデルの多くは、ドキュメントを画像として表現し、電子的に生成されたPDFに含まれる豊富なメタデータを無視している。このメタデータを直接活用することで、各PDFページを構造化グラフとして表現し、DLA問題をグラフ分割と分類の問題として捉えることができる。本研究では、グラフベースのレイアウト分析モデル(Graph-based Layout Analysis Model: GLAM)を提案する。これは軽量なグラフニューラルネットワークであり、2つの挑戦的なDLAデータセットにおいて既存のSOTAモデルと同等以上の性能を持つ一方で、そのサイズは1桁小さい。特に400万パラメータのGLAMモデルは、DocLayNetデータセットの11クラス中5クラスにおいて1億4000万以上のパラメータを持つ最先端のコンピュータビジョンベースのモデルを超える性能を示した。これらの2つのモデルの単純なアンサンブルにより、DocLayNetで新しいSOTAが達成され、mAPが76.8から80.8へと向上した。全体的にGLAMはSOTAモデルよりも5倍以上効率的であり、DLAタスクにおける有利なエンジニアリング選択肢となっている。