2ヶ月前
MIntRec: 多モーダル意図認識のための新しいデータセット
Hanlei Zhang; Hua Xu; Xin Wang; Qianrui Zhou; Shaojie Zhao; Jiayan Teng

要約
多モーダル意図認識は、現実世界の多モーダルシーンにおける人間の言語理解にとって重要な課題です。既存の大多数の意図認識手法は、ベンチマークデータセットがテキスト情報のみを含むという制約により、多モーダル情報を十分に活用することができないという限界があります。本論文では、この問題に対処するために新しい多モーダル意図認識データセット(MIntRec)を紹介します。このデータセットは、テレビシリーズ「Superstore」から収集されたデータに基づいて、粗粒度と細粒度の意図分類体系を定式化しています。MIntRecは、テキスト、ビデオ、音声の3つのモーダリティを含む2,224個の高品質サンプルで構成され、20種類の意図カテゴリーに対する多モーダルアノテーションが付いています。さらに、各ビデオセグメント内の話者のバウンディングボックスをアノテートし、話者アノテーションの自動化プロセスを達成しています。MIntRecは研究者が異なるモーダリティ間の関係性を探求し、意図認識能力を向上させるのに役立ちます。私たちは各モーダリティから特徴量を抽出し、3つの強力な多モーダル融合手法を適応させてクロスモーダル相互作用をモデル化し、ベースラインを作成しました。広範な実験結果は、非言語的なモーダリティを使用することで大幅な改善が得られることを示しており、これは多モーダル情報を用いた意図認識の有効性を証明しています。最良の方法と人間とのギャップは、この課題がコミュニティにとって挑戦的であり重要であることを示しています。全データセットとコードはhttps://github.com/thuiar/MIntRecで利用可能です。