2ヶ月前
MNERにおけるChatGPTのプロンプティング: 補助的な精緻化された知識を用いた強化されたマルチモーダルな固有表現認識
Jinyuan Li; Han Li; Zhuo Pan; Di Sun; Jiahao Wang; Wenkun Zhang; Gang Pan

要約
ソーシャルメディアにおける多モーダル固有表現認識(MNER)は、画像情報を組み込むことでテキストの実体予測を向上させることが目的です。既存の研究では、関連する画像情報の最大限の活用や明示的な知識ベースからの外部知識の組み込みに主に焦点が当てられています。しかし、これらの手法はモデルに対して外部知識を提供することの必要性を見落とすか、または取得された知識の高い冗長性という問題に直面しています。本論文では、PGIM -- チャットGPTを暗黙的な知識ベースとして活用し、より効率的な実体予測のために補助的な知識を直感的に生成するための二段階フレームワークを提案します。具体的には、PGIMには多モーダル類似例認識モジュールが含まれており、事前に定義された少量の人為的サンプルから適切な例を選択します。これらの例はMNERに合わせて設計されたフォーマット化されたプロンプトテンプレートに統合され、チャットGPTが補助的な洗練された知識を生成するようにガイドします。最後に、獲得した知識は元のテキストと統合され、下流モデルに入力されてさらなる処理が行われます。広範な実験により、PGIMが2つの古典的なMNERデータセットにおいて最先端の手法を上回り、より強固なロバスト性と汎化能力を持つことが示されています。