7日前

LAMBERT:情報抽出のためのレイアウト認識型(言語)モデリング

Łukasz Garncarek, Rafał Powalski, Tomasz Stanisławek, Bartosz Topolski, Piotr Halama, Michał Turski, Filip Graliński
LAMBERT:情報抽出のためのレイアウト認識型(言語)モデリング
要約

文書の理解において、複雑なレイアウトが局所的な意味に影響を与える問題に対して、簡潔な新アプローチを提案する。本研究では、OCRシステムから得られるレイアウト特徴を活用できるようにTransformerエンコーダアーキテクチャを改変した。この手法により、言語の意味構造を再学習する必要がなく、モデルの入力にトークンのバウンディングボックス座標を追加するだけで済む。これにより、生画像の使用を回避しつつ、レイアウト情報を反映する言語モデルを構築可能となる。このモデルは、下流タスクにおける微調整が可能である。本モデルは、Kleister NDA、Kleister Charity、SROIE、CORDの4つの公開データセットを用いて、エンドツーエンド情報抽出タスクで評価された。視覚的に豊かな文書から構成されるデータセットでは、優れた性能を達成した一方で、平坦なレイアウトを持つ文書(NDA)においても、ベースラインのRoBERTaを上回り、F₁スコアを78.50から80.42まで向上させた。また、SROIEデータセットにおけるキーデータ抽出タスクでは、公開リーダーボードで1位を獲得し、SOTAのF₁スコアを97.81から98.17まで改善した。

LAMBERT:情報抽出のためのレイアウト認識型(言語)モデリング | 最新論文 | HyperAI超神経