17日前

リアルタイムモノラル音声強調における短時間離散コサイン変換

{Kaichi Ma, Haixin Guan, Fei Gao, Qinglong Li}
リアルタイムモノラル音声強調における短時間離散コサイン変換
要約

深層学習に基づく音声強調アルゴリズムは、音声の理解性および知覚的品質の面で著しく進展している。多くの手法は、混合信号の位相を用いて音声を再構成しつつ、振幅スペクトルの強調に注力している。しかし、クリーンな位相情報は極めて重要でありながら予測が困難であるため、これらの手法の性能には限界がある。一部の研究者は位相スペクトルを直接的または間接的に推定しようとしたが、その効果は十分ではなかった。近年、複素数値モデルが提案され、深層複素畳み込み再帰ネットワーク(DCCRN)など、最先端の性能を達成している。しかしながら、これらのモデルの計算量は非常に大きくなる傾向にある。計算の複雑さを低減しつつ性能をさらに向上させるために、本稿では離散コサイン変換(DCT)を入力として用いる新たな手法、すなわち深層コサイン変換畳み込み再帰ネットワーク(DCTCRN)を提案する。実験結果によると、DCTCRNは客観的および主観的評価指標の両面で最先端の性能を達成した。ノイズ混在信号に対して、提案手法を適用した場合、平均意見スコア(MOS)は0.46ポイント(2.86から3.32)向上し、モデルパラメータ数はわずか286万個で実現された。