6ヶ月前

音声および音声処理

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Ziyang Ma Zhisheng Zheng Jiaxin Ye Jinchao Li Zhifu Gao Shiliang Zhang Xie Chen

概要

我々は、普遍的な音声感情表現モデルであるemotion2vecを提案する。emotion2vecは、自己教師学習によるオンライン蒸留（online distillation）を用いて、オープンソースのラベルなし感情データ上で事前学習が行われており、事前学習段階では発話単位の損失（utterance-level loss）とフレーム単位の損失（frame-level loss）を併用している。emotion2vecは、主流のIEMOCAPデータセット上で音声感情認識タスクに対して線形層のみを微調整（fine-tuning）するだけで、最先端の事前学習済み汎用モデルおよび専門的感情モデルを上回る性能を達成している。さらに、10種類の異なる言語における音声感情認識データセットにおいても、一貫した性能向上を示している。また、emotion2vecは楽曲感情認識や会話における感情予測、センチメント分析といった他の感情関連タスクにおいても優れた結果を示している。比較実験、除去実験（ablation study）および可視化により、提案するemotion2vecの普遍的性能が総合的に裏付けられている。筆者らの知る限り、emotion2vecは様々な感情関連タスクにおいて初めての普遍的表現モデルであり、本分野における空白を埋めたものである。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Ziyang Ma Zhisheng Zheng Jiaxin Ye Jinchao Li Zhifu Gao Shiliang Zhang Xie Chen

概要

我々は、普遍的な音声感情表現モデルであるemotion2vecを提案する。emotion2vecは、自己教師学習によるオンライン蒸留（online distillation）を用いて、オープンソースのラベルなし感情データ上で事前学習が行われており、事前学習段階では発話単位の損失（utterance-level loss）とフレーム単位の損失（frame-level loss）を併用している。emotion2vecは、主流のIEMOCAPデータセット上で音声感情認識タスクに対して線形層のみを微調整（fine-tuning）するだけで、最先端の事前学習済み汎用モデルおよび専門的感情モデルを上回る性能を達成している。さらに、10種類の異なる言語における音声感情認識データセットにおいても、一貫した性能向上を示している。また、emotion2vecは楽曲感情認識や会話における感情予測、センチメント分析といった他の感情関連タスクにおいても優れた結果を示している。比較実験、除去実験（ablation study）および可視化により、提案するemotion2vecの普遍的性能が総合的に裏付けられている。筆者らの知る限り、emotion2vecは様々な感情関連タスクにおいて初めての普遍的表現モデルであり、本分野における空白を埋めたものである。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています