11日前
自己教師付き音声感情認識におけるスピーカー正規化
Itai Gat, Hagai Aronowitz, Weizhong Zhu, Edmilson Morais, Ron Hoory

要約
大規模な音声感情認識データセットは入手が困難であり、小規模なデータセットには偏りが含まれる可能性がある。一方、深層ネットワークに基づく分類器は、こうした偏りを悪用し、話者固有の特徴などの「短絡的」な特徴を学習してしまう傾向がある。このような短絡的特徴は、モデルの汎化能力を低下させる要因となる。本研究では、特徴表現から話者特徴を正規化しつつ、音声感情認識タスクを学習する勾配ベースの敵対学習フレームワークを提案する。本手法の有効性を、話者独立および話者依存の両設定において実証し、挑戦的なIEMOCAPデータセットにおいて、新たな最先端の性能を達成した。