
要約
深層学習に基づく音声強調システム向けに、変調領域における損失関数を提案する。学習可能なスペクトロ時空間受容場(STRF)を用いて、話者識別タスクに最適化するように調整した。得られた学習済みSTRFを用いて、音声強調システムの学習に向けた変調領域における重み付き平均二乗誤差(MSE)を計算した。実験の結果、スペクトロ時空間領域におけるMSEに加えて変調領域におけるMSEを導入することで、リアルタイム音声強調システムにおける音声品質および話音明瞭度の客観的予測性能が顕著に向上したが、推論時に追加の計算負荷を発生させることなく実現された。