HyperAIHyperAI

Command Palette

Search for a command to run...

会話におけるマルチラベル感情分析:マルチモーダル知識蒸留を用いたアプローチ

Junsong Yuan Sreyasee Das Bhattacharjee Naresh Kumar Devulapally Sidharth Anand

概要

会話における話者の感情評価は、人間とコンピュータの相互作用を必要とするさまざまな応用分野において極めて重要である。しかし、複数の感情状態(例:「怒り」と「苛立ち」)が同時に発現する場合や、一方が他方の発現に影響を与えるような状況が生じる場合があり、それらの感情の動的変化は、話者の内面的要因(個人の社会的・文化的・教育的背景や人口統計的特性など)および外部的文脈によって大きく変動する。これまでの研究では、ある時点で観測される主要な感情(dominant emotion)のみを評価する傾向にあり、これは特に複数ラベル(multi-label)の分類が困難な状況下で誤った分類結果を招くリスクを伴う。本研究では、効率的なマルチモーダルTransformerネットワークを活用して、自己教師付きマルチラベルピア協調蒸留(Self-supervised Multi-Label Peer Collaborative Distillation: SeMuL-PCD)学習を提案する。この手法では、複数のモーダル固有のピアネットワーク(テキスト、音声、視覚)から得られる補完的なフィードバックが、単一のモーダル統合融合ネットワークに蒸留され、複数の感情を同時に推定する。提案するマルチモーダル蒸留損失(Multimodal Distillation Loss)は、ピアネットワークとの間のカルバック・ライブラー(Kullback-Leibler)ダイバージェンスを最小化することで、融合ネットワークの性能を補正する。さらに、各ピアネットワークは自己教師付きの対比学習(contrastive objective)によって条件付けられ、多様な社会的・人口統計的背景を持つ話者間での一般化性能を向上させる。各ネットワークがモーダル固有の判別的パターンを独立して学習できるピア協調学習を実現することで、SeMuL-PCDはさまざまな会話環境において高い有効性を発揮する。特に、MOSEI、EmoReact、ElderReactといった複数の大規模公開データセットにおいて、現在の最先端モデルを上回る性能を示すとともに、データセット間での交差評価設定において、重み付きF1スコアで約17%の向上を達成した。また、年齢や人口統計的背景に多様性を持つ集団への汎化能力も顕著に示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
会話におけるマルチラベル感情分析:マルチモーダル知識蒸留を用いたアプローチ | 記事 | HyperAI超神経