6ヶ月前

音声および音声処理

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Kuo-Hsuan Hung Szu-wei Fu Huan-Hsin Tseng Hsin-Tien Chiang Yu Tsao Chii-Wann Lin

概要

自己教師あり学習（Self-supervised Learning, SSL）に基づく音声表現は、複数の下流タスクにおいて最先端（SOTA）の性能を達成している。しかし、音声強調（Speech Enhancement, SE）タスクにおいてはさらなる改善の余地が残されている。本研究では、SSL埋め込みが音声信号の再生成に必要な細粒度情報を欠いているという問題を解決するため、クロスドメイン特徴を用いた手法を提案する。SSL表現とスペクトログラムを統合することで、性能が顕著に向上することが示された。さらに、SSL表現のノイズ耐性とSEにおける各層の重要性の関係を、クリーン・ノイズ間距離（Clean-Noisy distance, CN距離）を用いて分析した結果、ノイズ耐性が低いSSL表現ほどSEにおいて重要であることが明らかになった。また、VCTK-DEMANDデータセットを用いた実験により、SSL表現をSEモデルでファインチューニングする手法が、複雑なネットワークアーキテクチャを用いずに、PESQ、CSIG、COVLの指標において既存のSOTAなSSLベースのSE手法を上回ることを確認した。後続の実験では、ファインチューニング後にSSL埋め込みにおけるCN距離が増加することが観察された。これらの結果は予想通りであり、今後のSE関連のSSL学習手法の設計に役立つ可能性がある。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Kuo-Hsuan Hung Szu-wei Fu Huan-Hsin Tseng Hsin-Tien Chiang Yu Tsao Chii-Wann Lin

概要

自己教師あり学習（Self-supervised Learning, SSL）に基づく音声表現は、複数の下流タスクにおいて最先端（SOTA）の性能を達成している。しかし、音声強調（Speech Enhancement, SE）タスクにおいてはさらなる改善の余地が残されている。本研究では、SSL埋め込みが音声信号の再生成に必要な細粒度情報を欠いているという問題を解決するため、クロスドメイン特徴を用いた手法を提案する。SSL表現とスペクトログラムを統合することで、性能が顕著に向上することが示された。さらに、SSL表現のノイズ耐性とSEにおける各層の重要性の関係を、クリーン・ノイズ間距離（Clean-Noisy distance, CN距離）を用いて分析した結果、ノイズ耐性が低いSSL表現ほどSEにおいて重要であることが明らかになった。また、VCTK-DEMANDデータセットを用いた実験により、SSL表現をSEモデルでファインチューニングする手法が、複雑なネットワークアーキテクチャを用いずに、PESQ、CSIG、COVLの指標において既存のSOTAなSSLベースのSE手法を上回ることを確認した。後続の実験では、ファインチューニング後にSSL埋め込みにおけるCN距離が増加することが観察された。これらの結果は予想通りであり、今後のSE関連のSSL学習手法の設計に役立つ可能性がある。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています