2ヶ月前
LayoutLMv3に基づく視覚的に豊かな文書での関係抽出の向上モデル
Wiam Adnan; Joel Tang; Yassine Bel Khayat Zouggari; Seif Edinne Laatiri; Laurent Lam; Fabien Caspani

要約
ドキュメント理解は、自然言語処理(NLP)における発展的な分野です。特に、テキストそのものだけでなく視覚的および空間的な特徴も重要であるため、ビジュアルドキュメント理解(VDU)の分野では複数のマルチモーダルモデルが開発されています。しかし、研究は主にキーインフォメーション抽出(KIE)に焦点を当てており、識別されたエンティティ間の関係抽出(RE)はまだ十分に研究されていません。例えば、REはドキュメント内のエンティティをグループ化したり、データの包括的な階層構造を得たりするために不可欠です。本論文では、LayoutLMv3を基盤として初期化されたモデルを提案し、FUNSDおよびCORDデータセットにおいて視覚的に豊富なドキュメント(VRD)に対するREで現行の最先端結果と同等かそれ以上の性能を達成できることを示します。このモデルは特定の事前学習を行わず、少ないパラメータでこれらの成果を上げています。また、FUNSD上で実施した広範なアブレーションスタディについて報告し、特定の特徴やモデリング選択が性能に与える大きな影響を強調しています。