LLMsを橋として:Grounded Multimodal Named Entity Recognitionの再定式化

Grounded Multimodal Named Entity Recognition (GMNER)は、画像とテキストのペアから固有名詞、そのエンティティタイプおよび対応する視覚領域を識別することを目指す新興のマルチモーダルタスクです。GMNERタスクには2つの挑戦的な特性があります:1) ソーシャルメディアにおける画像とテキストの間の弱い相関関係により、多くの固有名詞がアングランド(未接地)となる傾向があります。2) 状況説明(referring expressions)の粗粒度な表現とGMNERで扱われる細粒度な固有名詞との間に差異が存在します。本論文では、RiVEGという統一フレームワークを提案します。このフレームワークは、大規模言語モデル(LLMs)を接続ブリッジとして利用することで、GMNERをMNER-VE-VGの合同タスクに再定式化します。この再定式化により2つの利点がもたらされます:1) 最適なMNER性能を維持しつつ、物体検出手法による事前抽出が必要なくなるため、既存のGMNER手法の主要な2つの制約を自然に解決できます。2) エンティティ拡張表現と視覚的包含(Visual Entailment: VE)モジュールの導入により、視覚的接地(Visual Grounding: VG)とエンティティ接地(Entity Grounding: EG)が統一されます。これによりRiVEGは、現在または将来のマルチモーダル事前学習モデルから容易に視覚的包含と視覚的接地的能力を受け継ぐことができます。多数の実験結果から、RiVEGは既存のGMNERデータセットにおいて最先端手法を上回り、3つのサブタスクすべてでそれぞれ10.65%、6.21%、8.83%という絶対的な優位性を達成していることが示されています。