
位相情報は音声の知覚品質と理解度に大きな影響を与えます。しかし、既存の音声強化手法では、位相の非構造的な性質とラッピング特性により、明示的な位相推定に制限が生じており、これが強化された音声品質向上のボトルネックとなっています。この問題を克服するために、本論文ではMP-SENet(Magnitude and Phase Speech Enhancement Network)という新しい音声強化ネットワークを提案します。このMP-SENetは、トランスフォーマーを組み込んだエンコーダー-デコーダー構造で構成されています。エンコーダーは、入力された歪んだ振幅スペクトルと位相スペクトルを時間周波数表現に符号化することを目指しており、これらの表現はさらに時間周波数トランスフォーマーに入力され、時間依存性と周波数依存性を交互に捉えます。デコーダーには振幅マスクデコーダーと位相デコーダーが含まれており、それぞれ振幅マスキングアーキテクチャと位相並列推定アーキテクチャを取り入れることで、直接振幅スペクトルとラップされた位相スペクトルを強化します。多段階損失関数が振幅スペクトル、ラップされた位相スペクトル、および短時間複素スペクトルに対して明示的に定義され、MP-SENetモデルの共同学習に採用されています。さらに、これらの損失と人間の聴覚感知との間の不完全な相関を補償するために、メトリックディスクリミネーターが用いられています。実験結果は、提案したMP-SENetが音声ノイズ除去、残響除去、帯域拡張などの複数の音声強化タスクにおいて最先端の性能を達成していることを示しています。既存の位相意識型音声強化手法と比較して、明示的な位相推定によって振幅と位相間の補償効果をより軽減し、強化された音声の知覚品質を向上させています。