
要約
本研究では、時間周波数(TF)領域における音声強化(SE)のために、コンフォーマーを基盤とするメトリック生成対抗ネットワーク(CMGAN)モデルの開発をさらに進めています。本論文は我々の以前の研究を基にしていますが、モデル入力とアーキテクチャ設計選択肢について広範な削減実験を行い、より詳細な検討を行っています。我々は、未知のノイズ種類や歪みに対するモデルの汎化能力を厳密にテストしました。これらの主張はDNS-MOS測定値と聴取試験によって強固に裏付けられています。音声除燥タスクにのみ焦点を当てるだけでなく、本研究では除響と超解像タスクにも対応するための拡張を行いました。これには、さまざまなアーキテクチャ変更が必要であり、特にメトリック識別スコアとマスキング技術を探求しました。重要なのは、複雑なTF領域での超解像処理に挑戦した初期の研究の一つであることを指摘することです。我々の結果は、CMGANが除燥、除響、超解像という3つの主要な音声強化タスクにおいて既存の最先端手法を上回っていることを示しています。例えば、Voice Bank+DEMANDデータセットを使用した除燥タスクにおいて、CMGANは従来のモデルを超える性能を達成し、PESQスコア3.41とSSNR11.10dBを記録しました。オーディオサンプルおよびCMGANの実装はオンラインで公開されています。