6ヶ月前

音声および音声処理

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Yingzhi Wang Abdelmoumene Boumadane Abdelwahab Heba

概要

音声自己教師ありモデルであるwav2vec 2.0やHuBERTは、自動音声認識（ASR）分野において画期的な進展を遂げている。しかし、それらがASR以外のタスクにおいても必ずしも優れた性能を発揮することを完全に証明しているわけではない。本研究では、wav2vec 2.0およびHuBERTの事前学習モデルに対して、部分的ファインチューニングと完全なファインチューニングを適用し、3つの非ASR音声タスク——音声感情認識、話者認証、 spoken language understanding（話者言語理解）——における性能を検証した。提案するシンプルな下流タスクフレームワークを用いて、IEMOCAPデータセットにおける音声感情認識では、話者依存設定で79.58％の加重精度、話者独立設定で73.01％の加重精度を達成した。VoxCeleb1データセットにおける話者認証では2.36％の等誤差率（EER）を達成し、SLURPデータセットでは意図分類で89.38％の精度、スロットフィリングで78.92％のF1スコアを記録した。これらの結果は、ファインチューニングされたwav2vec 2.0およびHuBERTが、抑揚、声紋、意味表現といった多様な音声特徴を効果的に学習可能であることを示しており、その強力な表現学習能力を裏付けている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Yingzhi Wang Abdelmoumene Boumadane Abdelwahab Heba

概要

音声自己教師ありモデルであるwav2vec 2.0やHuBERTは、自動音声認識（ASR）分野において画期的な進展を遂げている。しかし、それらがASR以外のタスクにおいても必ずしも優れた性能を発揮することを完全に証明しているわけではない。本研究では、wav2vec 2.0およびHuBERTの事前学習モデルに対して、部分的ファインチューニングと完全なファインチューニングを適用し、3つの非ASR音声タスク——音声感情認識、話者認証、 spoken language understanding（話者言語理解）——における性能を検証した。提案するシンプルな下流タスクフレームワークを用いて、IEMOCAPデータセットにおける音声感情認識では、話者依存設定で79.58％の加重精度、話者独立設定で73.01％の加重精度を達成した。VoxCeleb1データセットにおける話者認証では2.36％の等誤差率（EER）を達成し、SLURPデータセットでは意図分類で89.38％の精度、スロットフィリングで78.92％のF1スコアを記録した。これらの結果は、ファインチューニングされたwav2vec 2.0およびHuBERTが、抑揚、声紋、意味表現といった多様な音声特徴を効果的に学習可能であることを示しており、その強力な表現学習能力を裏付けている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています