3ヶ月前
自己教師付き埋め込みによる音声強調の向上
Kuo-Hsuan Hung, Szu-wei Fu, Huan-Hsin Tseng, Hsin-Tien Chiang, Yu Tsao, Chii-Wann Lin

要約
自己教師あり学習(Self-supervised Learning, SSL)に基づく音声表現は、複数の下流タスクにおいて最先端(SOTA)の性能を達成している。しかし、音声強調(Speech Enhancement, SE)タスクにおいてはさらなる改善の余地が残されている。本研究では、SSL埋め込みが音声信号の再生成に必要な細粒度情報を欠いているという問題を解決するため、クロスドメイン特徴を用いた手法を提案する。SSL表現とスペクトログラムを統合することで、性能が顕著に向上することが示された。さらに、SSL表現のノイズ耐性とSEにおける各層の重要性の関係を、クリーン・ノイズ間距離(Clean-Noisy distance, CN距離)を用いて分析した結果、ノイズ耐性が低いSSL表現ほどSEにおいて重要であることが明らかになった。また、VCTK-DEMANDデータセットを用いた実験により、SSL表現をSEモデルでファインチューニングする手法が、複雑なネットワークアーキテクチャを用いずに、PESQ、CSIG、COVLの指標において既存のSOTAなSSLベースのSE手法を上回ることを確認した。後続の実験では、ファインチューニング後にSSL埋め込みにおけるCN距離が増加することが観察された。これらの結果は予想通りであり、今後のSE関連のSSL学習手法の設計に役立つ可能性がある。