11日前
emotion2vec:音声感情表現のための自己教師付き事前学習
Ziyang Ma, Zhisheng Zheng, Jiaxin Ye, Jinchao Li, Zhifu Gao, Shiliang Zhang, Xie Chen

要約
我々は、普遍的な音声感情表現モデルであるemotion2vecを提案する。emotion2vecは、自己教師学習によるオンライン蒸留(online distillation)を用いて、オープンソースのラベルなし感情データ上で事前学習が行われており、事前学習段階では発話単位の損失(utterance-level loss)とフレーム単位の損失(frame-level loss)を併用している。emotion2vecは、主流のIEMOCAPデータセット上で音声感情認識タスクに対して線形層のみを微調整(fine-tuning)するだけで、最先端の事前学習済み汎用モデルおよび専門的感情モデルを上回る性能を達成している。さらに、10種類の異なる言語における音声感情認識データセットにおいても、一貫した性能向上を示している。また、emotion2vecは楽曲感情認識や会話における感情予測、センチメント分析といった他の感情関連タスクにおいても優れた結果を示している。比較実験、除去実験(ablation study)および可視化により、提案するemotion2vecの普遍的性能が総合的に裏付けられている。筆者らの知る限り、emotion2vecは様々な感情関連タスクにおいて初めての普遍的表現モデルであり、本分野における空白を埋めたものである。