6ヶ月前

音声および音声処理

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Sangeeta Srivastava Yun Wang Andros Tjandra Anurag Kumar Chunxi Liu Kritika Singh Yatharth Saraf

概要

ラベルなしデータからの表現学習は、人工知能研究において重要なテーマである。音声分野では自己教師あり音声表現学習が広く採用されているが、非音声音声タスクにおける音声表現学習について包括的な分析を行った研究は極めて少ない。本論文では、自己教師あり音声表現学習手法を提案し、多様な下流タスクである非音声音声処理に適用する。既存の音声タスクにおいて自己教師あり学習で成功を収めた有名なwav2vec 2.0フレームワークと、パラメータ効率の高いConformerアーキテクチャを統合した。本手法による自己教師あり事前学習により、ラベル付きデータの必要量を約2/3まで削減可能である。AudioSetベンチマークにおいて、音声のみを用いた自己教師あり学習で、平均精度（mAP）0.415を達成し、このデータセットにおける新たな最良性能を記録した。さらに、微調整されたConformerモデルは、複数の下流タスクにおいて、従来の教師あり学習で事前学習されたシステムと同等またはそれ以上の性能を達成した。本研究では、事前学習および微調整における重要な設計上の検討事項についても議論する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Sangeeta Srivastava Yun Wang Andros Tjandra Anurag Kumar Chunxi Liu Kritika Singh Yatharth Saraf

概要

ラベルなしデータからの表現学習は、人工知能研究において重要なテーマである。音声分野では自己教師あり音声表現学習が広く採用されているが、非音声音声タスクにおける音声表現学習について包括的な分析を行った研究は極めて少ない。本論文では、自己教師あり音声表現学習手法を提案し、多様な下流タスクである非音声音声処理に適用する。既存の音声タスクにおいて自己教師あり学習で成功を収めた有名なwav2vec 2.0フレームワークと、パラメータ効率の高いConformerアーキテクチャを統合した。本手法による自己教師あり事前学習により、ラベル付きデータの必要量を約2/3まで削減可能である。AudioSetベンチマークにおいて、音声のみを用いた自己教師あり学習で、平均精度（mAP）0.415を達成し、このデータセットにおける新たな最良性能を記録した。さらに、微調整されたConformerモデルは、複数の下流タスクにおいて、従来の教師あり学習で事前学習されたシステムと同等またはそれ以上の性能を達成した。本研究では、事前学習および微調整における重要な設計上の検討事項についても議論する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています