2ヶ月前

野生環境下での音声を用いたクロスモーダル転送による感情認識

Samuel Albanie; Arsha Nagrani; Andrea Vedaldi; Andrew Zisserman
野生環境下での音声を用いたクロスモーダル転送による感情認識
要約

大規模な人間がラベリングした音声データセットを取得して、感情認識のためのモデルを訓練することは、注釈コストとラベルの曖昧さにより非常に困難な課題となっています。本研究では、ラベリングされた音声データにアクセスせずに音声分類の埋め込み(embeddings)を学習するタスクについて考察します。当方針は単純な仮説に基づいています:音声の感情的内容は話者の表情と相関しているというものです。この関係性を利用することで、表情の注釈を視覚領域(顔)から音声領域(声)へクロスモーダルディスティレーションを通じて転送することが可能であることを示します。以下の貢献を行いました:(i) 感情認識のための強力な教師ネットワークを開発し、標準的なベンチマークで最先端の性能を達成しました;(ii) 教師ネットワークを使用して、ラベリングされた音声データにアクセスせずに音声感情認識の表現(埋め込み)を学習する学生ネットワークをタブーラ・ラサ(tabula rasa)から訓練しました;(iii) 音声感情埋め込みが外部ベンチマークデータセットでの音声感情認識に使用できることを示しました。コード、モデル、およびデータは利用可能です。