HyperAIHyperAI

Command Palette

Search for a command to run...

MIntRec: 多モーダル意図認識のための新しいデータセット

Hanlei Zhang Qianrui Zhou Hua Xu Shaojie Zhao Jiayan Teng Xin Wang

概要

多モーダル意図認識は、現実世界の多モーダルシーンにおける人間の言語理解にとって重要な課題です。既存の大多数の意図認識手法は、ベンチマークデータセットがテキスト情報のみを含むという制約により、多モーダル情報を十分に活用することができないという限界があります。本論文では、この問題に対処するために新しい多モーダル意図認識データセット(MIntRec)を紹介します。このデータセットは、テレビシリーズ「Superstore」から収集されたデータに基づいて、粗粒度と細粒度の意図分類体系を定式化しています。MIntRecは、テキスト、ビデオ、音声の3つのモーダリティを含む2,224個の高品質サンプルで構成され、20種類の意図カテゴリーに対する多モーダルアノテーションが付いています。さらに、各ビデオセグメント内の話者のバウンディングボックスをアノテートし、話者アノテーションの自動化プロセスを達成しています。MIntRecは研究者が異なるモーダリティ間の関係性を探求し、意図認識能力を向上させるのに役立ちます。私たちは各モーダリティから特徴量を抽出し、3つの強力な多モーダル融合手法を適応させてクロスモーダル相互作用をモデル化し、ベースラインを作成しました。広範な実験結果は、非言語的なモーダリティを使用することで大幅な改善が得られることを示しており、これは多モーダル情報を用いた意図認識の有効性を証明しています。最良の方法と人間とのギャップは、この課題がコミュニティにとって挑戦的であり重要であることを示しています。全データセットとコードはhttps://github.com/thuiar/MIntRecで利用可能です


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています