2ヶ月前

読み順が重要である:視覚的に豊かな文書からの情報抽出におけるトークンパス予測

Zhang, Chong ; Guo, Ya ; Tu, Yi ; Chen, Huan ; Tang, Jinyang ; Zhu, Huijia ; Zhang, Qi ; Gui, Tao
読み順が重要である:視覚的に豊かな文書からの情報抽出におけるトークンパス予測
要約

最近のマルチモーダル事前学習モデルの進歩により、視覚的に豊かな文書(Visually-rich Documents: VrDs)からの情報抽出が大幅に向上しました。その中で、固有表現認識(Named Entity Recognition: NER)は、NLPの典型的な設定に従って、トークンに対するBIOエンティタータグを予測するシーケンスラベリングタスクとして扱われています。しかし、BIOタギングスキームはモデル入力の正しい順序に依存しており、これがスキャニングされたVrDsにおける実世界のNERでは保証されません。OCRシステムによってテキストが認識され配置されるため、読み取り順序の問題が発生します。この問題により、BIOタギングスキームによるエンティティの正確なマーク付けが妨げられ、シーケンスラベリング手法では正しい固有表現を予測することが不可能になります。この読み取り順序の問題に対処するために、我々はトークンパス予測(Token Path Prediction: TPP)という単純な予測ヘッドを導入します。TPPはトークン分類とは異なり、文書レイアウトをトークンの完全な有向グラフとしてモデル化し、グラフ内のトークンパスをエンティティとして予測します。さらに、VrD-NERシステムの評価を改善するために、スキャニングされた文書上のNER向けに2つの改訂版ベンチマークデータセットを提案しています。これらのデータセットは実世界の状況を反映することができます。実験結果は我々の手法の効果性を示しており、さまざまな文書情報抽出タスクへの普遍的な解決策となる可能性があることを示唆しています。

読み順が重要である:視覚的に豊かな文書からの情報抽出におけるトークンパス予測 | 最新論文 | HyperAI超神経