17日前

DeepFilterNet:知覚的に動機付けられたリアルタイム音声強調

Hendrik Schröter, Tobias Rosenkranz, Alberto N. Escalante-B., Andreas Maier
DeepFilterNet:知覚的に動機付けられたリアルタイム音声強調
要約

単一チャネル音声強調におけるマルチフレームアルゴリズムは、音声信号内の短時間相関を活用できる利点を持つ。Deep Filtering(DF)は、こうした相関を効果的に活かすために周波数領域で複素フィルタを直接推定する手法として提案された。本研究では、DeepFilterNetを用いたリアルタイム音声強調デモを紹介する。DeepFilterNetの高い効率性は、音声生成のドメイン知識および聴覚心理学的知覚の特性を活用することで実現されている。本モデルは、最先端の音声強調ベンチマークと同等の性能を達成しつつ、単一スレッドのノートブックCPU上でリアルタイム要因(real-time factor)0.19を達成している。本フレームワークおよび事前学習済み重みは、オープンソースライセンスの下で公開されている。