2ヶ月前

DocTr: 文書内の構造化情報抽出のためのドキュメントトランスフォーマー

Haofu Liao; Aruni RoyChowdhury; Weijian Li; Ankan Bansal; Yuting Zhang; Zhuowen Tu; Ravi Kumar Satzoda; R. Manmatha; Vijay Mahadevan
DocTr: 文書内の構造化情報抽出のためのドキュメントトランスフォーマー
要約

視覚的に豊かな文書から構造化された情報抽出(Structured Information Extraction: SIE)の新しい枠組みを提案します。この枠組みは、既存のIOBタギングやグラフベースの枠組みが、入力テキストの正しい順序に過度に依存するか、複雑なグラフのデコーディングに苦労するという制限に対処することを目指しています。代わりに、視覚におけるアンカーベースのオブジェクト検出器に触発され、エンティティをアンカーワードとバウンディングボックスで表現し、エンティティリンクをアンカーワード間の関連として表現します。これにより、テキスト順序に対するロバスト性が向上し、エンティティリンク用のコンパクトなグラフを維持できます。この枠組みに基づいて、1) 視覚的に豊かな文書においてエンティティのバウンディングボックスを検出し関連付けることを目指したDOCument TRansformer(DocTr)と 2) 言語の文脈でのエンティティ検出学習を支援する単純な事前学習戦略を導入します。3つのSIEベンチマークでの評価結果は、提案された枠組みの有効性を示しており、全体的なアプローチは既存の解決策を上回っています。

DocTr: 文書内の構造化情報抽出のためのドキュメントトランスフォーマー | 最新論文 | HyperAI超神経