2ヶ月前
感情認識のための多様な音声視覚学習
Lucas Goncalves; Seong-Gyun Leem; Wei-Cheng Lin; Berrak Sisman; Carlos Busso

要約
現在の音声視覚感情認識モデルは、実用的なアプリケーションへの展開に必要な柔軟性を欠いています。私たちは、単一モダリティのみが利用可能であっても動作し、感情属性の予測とカテゴリカルな感情認識のいずれかを互換的に実装できる多モーダルシステムを構想しています。このような多モーダル感情認識システムで柔軟性を達成することは、異なるデータソースを正確に解釈し統合する固有の課題があるため困難です。また、欠損または部分的な情報の堅牢な処理を行いながら、回帰タスクと分類タスク間での直接的な切り替えを許可することも課題となっています。本研究では、単一モーダルおよび多モーダルシステムにおける感情回帰や感情分類タスクに対応可能な汎用的な音声視覚学習(Versatile Audio-Visual Learning: VAVL)フレームワークを提案します。訓練セットの一部に音声と視覚のペアデータが利用できない場合でも(つまり、音声のみまたは映像のみが存在する場合)、このフレームワークは訓練可能です。効果的な表現学習を達成するために、音声視覚共有層、共有層上の残差接続、および単一モーダル再構築タスクを使用しています。実験結果は、私たちのアーキテクチャがCREMA-D, MSP-IMPROV, およびCMU-MOSEIコーパスにおいて強力な基準モデルを大幅に上回ることを示しています。特にMSP-IMPROVコーパスにおける感情属性予測タスクにおいて、VAVLは新しい最先端性能(state-of-the-art performance)を達成しました。