HyperAIHyperAI

Command Palette

Search for a command to run...

MMER:音声感情認識のためのマルチモーダル・マルチタスク学習

Sreyan Ghosh Utkarsh Tyagi S Ramaneswaran Harshvardhan Srivastava Dinesh Manocha

概要

本稿では、音声感情認識(Speech Emotion Recognition)を目的とした新たなマルチモーダル・マルチタスク学習手法MMERを提案する。MMERは、テキストモダリティと音響モダリティの間に早期融合(early-fusion)とクロスモダル自己注意(cross-modal self-attention)を組み合わせた新規なマルチモーダルネットワークを活用し、発話文から感情認識を学習するための三つの新規な補助タスクを定式化している。実験において、MMERはすべてのベースライン手法を上回り、IEMOCAPベンチマークにおいて最先端(state-of-the-art)の性能を達成した。さらに、本手法の有効性を検証するため、広範なアブレーションスタディおよび結果分析を実施した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています