3ヶ月前

会話におけるマルチラベル感情分析：マルチモーダル知識蒸留を用いたアプローチ

{Junsong Yuan, Sreyasee Das Bhattacharjee, Naresh Kumar Devulapally, Sidharth Anand}

要約

会話における話者の感情評価は、人間とコンピュータの相互作用を必要とするさまざまな応用分野において極めて重要である。しかし、複数の感情状態（例：「怒り」と「苛立ち」）が同時に発現する場合や、一方が他方の発現に影響を与えるような状況が生じる場合があり、それらの感情の動的変化は、話者の内面的要因（個人の社会的・文化的・教育的背景や人口統計的特性など）および外部的文脈によって大きく変動する。これまでの研究では、ある時点で観測される主要な感情（dominant emotion）のみを評価する傾向にあり、これは特に複数ラベル（multi-label）の分類が困難な状況下で誤った分類結果を招くリスクを伴う。本研究では、効率的なマルチモーダルTransformerネットワークを活用して、自己教師付きマルチラベルピア協調蒸留（Self-supervised Multi-Label Peer Collaborative Distillation: SeMuL-PCD）学習を提案する。この手法では、複数のモーダル固有のピアネットワーク（テキスト、音声、視覚）から得られる補完的なフィードバックが、単一のモーダル統合融合ネットワークに蒸留され、複数の感情を同時に推定する。提案するマルチモーダル蒸留損失（Multimodal Distillation Loss）は、ピアネットワークとの間のカルバック・ライブラー（Kullback-Leibler）ダイバージェンスを最小化することで、融合ネットワークの性能を補正する。さらに、各ピアネットワークは自己教師付きの対比学習（contrastive objective）によって条件付けられ、多様な社会的・人口統計的背景を持つ話者間での一般化性能を向上させる。各ネットワークがモーダル固有の判別的パターンを独立して学習できるピア協調学習を実現することで、SeMuL-PCDはさまざまな会話環境において高い有効性を発揮する。特に、MOSEI、EmoReact、ElderReactといった複数の大規模公開データセットにおいて、現在の最先端モデルを上回る性能を示すとともに、データセット間での交差評価設定において、重み付きF1スコアで約17%の向上を達成した。また、年齢や人口統計的背景に多様性を持つ集団への汎化能力も顕著に示された。