2ヶ月前

ITA: 多モーダルな固有名詞認識のための画像-テキストアライメント

Xinyu Wang; Min Gui; Yong Jiang; Zixia Jia; Nguyen Bach; Tao Wang; Zhongqiang Huang; Fei Huang; Kewei Tu
ITA: 多モーダルな固有名詞認識のための画像-テキストアライメント
要約

最近、マルチモーダルな固有表現認識(Multi-modal Named Entity Recognition: MNER)が多くの注目を集めています。これまでの研究では、事前学習されたオブジェクト検出器から得られる領域レベルの視覚表現を活用し、画像とテキスト表現の相互作用をアテンション機構でモデル化する手法が主に採用されてきました。しかし、画像とテキスト表現はそれぞれのモーダリティのデータ上で別々に学習されるため、同じ空間で整列させることが困難です。テキスト表現がMNERにおいて最も重要な役割を果たすことを踏まえ、本論文では、画像特徴量をテキスト空間に整列させる方法である{\bf 画像-テキスト 整列 (Image-{\bf t}ext {\bf A}lignments: ITA)}を提案します。ITAはまず、画像を領域オブジェクトタグ、画像レベルのキャプション、光学文字認識結果として視覚的なコンテクストに整列させます。次に、これらを入力テキストと連結して新しいクロスモーダルな入力を作成し、それを事前学習されたテキスト埋め込みモデルに入力します。これにより、両方のモーダリティがテキスト空間で表現されることから、事前学習されたテキスト埋め込みモデルのアテンションモジュールが二つのモーダリティ間の相互作用をより容易にモデル化できるようになります。さらに、ITAはクロスモーダルな入力と単一のテキスト入力からの予測出力分布を整列させることで、MNERモデルが単独のテキスト入力に対処できることや画像からのノイズに対する堅牢性を向上させます。実験では、ITAモデルが画像情報なしでもマルチモーダルな固有表現認識データセットにおいて最先端の精度を達成できることを示しています。

ITA: 多モーダルな固有名詞認識のための画像-テキストアライメント | 最新論文 | HyperAI超神経