17日前

MMER：音声感情認識のためのマルチモーダル・マルチタスク学習

Sreyan Ghosh, Utkarsh Tyagi, S Ramaneswaran, Harshvardhan Srivastava, Dinesh Manocha

要約

本稿では、音声感情認識（Speech Emotion Recognition）を目的とした新たなマルチモーダル・マルチタスク学習手法MMERを提案する。MMERは、テキストモダリティと音響モダリティの間に早期融合（early-fusion）とクロスモダル自己注意（cross-modal self-attention）を組み合わせた新規なマルチモーダルネットワークを活用し、発話文から感情認識を学習するための三つの新規な補助タスクを定式化している。実験において、MMERはすべてのベースライン手法を上回り、IEMOCAPベンチマークにおいて最先端（state-of-the-art）の性能を達成した。さらに、本手法の有効性を検証するため、広範なアブレーションスタディおよび結果分析を実施した。