HyperAIHyperAI

Command Palette

Search for a command to run...

LAMBERT:情報抽出のためのレイアウト認識型(言語)モデリング

Łukasz Garncarek Rafał Powalski Tomasz Stanisławek Bartosz Topolski Piotr Halama Michał Turski Filip Graliński

概要

文書の理解において、複雑なレイアウトが局所的な意味に影響を与える問題に対して、簡潔な新アプローチを提案する。本研究では、OCRシステムから得られるレイアウト特徴を活用できるようにTransformerエンコーダアーキテクチャを改変した。この手法により、言語の意味構造を再学習する必要がなく、モデルの入力にトークンのバウンディングボックス座標を追加するだけで済む。これにより、生画像の使用を回避しつつ、レイアウト情報を反映する言語モデルを構築可能となる。このモデルは、下流タスクにおける微調整が可能である。本モデルは、Kleister NDA、Kleister Charity、SROIE、CORDの4つの公開データセットを用いて、エンドツーエンド情報抽出タスクで評価された。視覚的に豊かな文書から構成されるデータセットでは、優れた性能を達成した一方で、平坦なレイアウトを持つ文書(NDA)においても、ベースラインのRoBERTaを上回り、F₁スコアを78.50から80.42まで向上させた。また、SROIEデータセットにおけるキーデータ抽出タスクでは、公開リーダーボードで1位を獲得し、SOTAのF₁スコアを97.81から98.17まで改善した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
LAMBERT:情報抽出のためのレイアウト認識型(言語)モデリング | 記事 | HyperAI超神経