2ヶ月前
トークンレベルのコントラスティブ学習とモダリティ対応プロンプトを用いたマルチモーダル意図認識
Qianrui Zhou; Hua Xu; Hao Li; Hanlei Zhang; Xiaohan Zhang; Yifan Wang; Kai Gao

要約
多モーダル意図認識は、表情、身体動作、話すときのトーンなどの異なるモーダルを活用してユーザーの意図を理解することを目指しており、現実世界の多モーダルシナリオにおける人間の言語と行動の理解に重要な課題となっています。しかし、既存の方法の大半は異なるモーダル間の潜在的な相関関係を無視し、非言語モーダルから意味論的特徴を効果的に学習する能力に制限があるという問題があります。本論文では、上記の課題に対処するために、モーダル意識型プロンプティング(TCL-MAP)を持つトークンレベル対照学習手法を提案します。最適な多モーダル意味環境をテキストモーダルのために確立するため、我々は類似性に基づくモーダルアライメントとクロスモーダル注意メカニズムを使用して、テキスト、ビデオ、オーディオモーダルからの特徴量を効果的に整列および融合させるモーダル意識型プロンプティングモジュール(MAP)を開発しました。提案されたトークンレベル対照学習フレームワーク(TCL)は、モーダル意識型プロンプトと正解ラベルに基づいて拡張サンプルを作成し、ラベルトークンに対してNT-Xent損失を使用します。特に、TCLは意図ラベルから得られる最適なテキスト意味洞察を利用して他のモーダルの学習過程を逆にガイドします。広範な実験により、当手法が最先端手法と比較して著しい改善を達成していることが示されています。さらに、削減分析により、手作業で作成されたプロンプトよりもモーダル意識型プロンプトの方が優れていることが証明され、これは多モーダルプロンプト学習にとって大きな意義を持っています。コードは https://github.com/thuiar/TCL-MAP で公開されています。