2ヶ月前
名詞エンティティと関係の抽出にマルチモーダル検索を用いる
Xinyu Wang; Jiong Cai; Yong Jiang; Pengjun Xie; Kewei Tu; Wei Lu

要約
多モーダルな固有表現認識(NER)と関係抽出(RE)は、画像情報の関連情報を活用して、NERとREの性能を向上させることが目的です。既存の多くの研究では、画像から潜在的に有用な情報を直接抽出すること(ピクセルレベルの特徴、識別された物体、および関連するキャプションなど)に焦点を当ててきました。しかし、このような抽出プロセスは知識に配慮していない場合があり、得られる情報が必ずしも高い関連性を持つとは限らないという問題があります。本論文では、新しい多モーダル検索ベースのフレームワーク(MoRe)を提案します。MoReにはテキスト検索モジュールと画像検索モジュールが含まれており、それぞれ入力テキストと画像に関連する知識を知識コーパスから検索します。次に、検索結果はそれぞれテキストモデルと視覚モデルに送られ、予測を行います。最後に、エキスパートの混合(Mixture of Experts: MoE)モジュールが両モデルからの予測結果を結合し、最終的な決定を行います。我々の実験結果は、テキストモデルと視覚モデルが4つの多モーダルNERデータセットと1つの多モーダルREデータセットで最先端の性能を達成できることを示しています。さらにMoEを使用することで、モデルの性能が更に向上し、テキストと視覚的な手がかりを統合することがこれらのタスクにおいて有益であることを分析結果が示しています。