2ヶ月前

aTENNuate: Rawオーディオ上の深層SSMを用いた最適化されたリアルタイム音声強調

Pei, Yan Ru ; Shrivastava, Ritik ; Sidharth, FNU
aTENNuate: Rawオーディオ上の深層SSMを用いた最適化されたリアルタイム音声強調
要約

私たちは、効率的なオンライン生音声強化のためにエンドツーエンドで構成された単純な深層状態空間オートエンコーダーであるaTENNuateを提案します。このネットワークの性能は主に生音声のノイズ除去において評価され、さらにスーパーレゾリューションや量子化解除などのタスクについても評価が行われています。aTENNateはVoiceBank + DEMANDおよびMicrosoft DNS1の合成テストセットでベンチマークされています。PESQスコア、パラメータ数、MACs(Multiply-Accumulate Operations)、およびレイテンシの面で、以前のリアルタイムノイズ除去モデルを上回る性能を示しています。生波形処理モデルとしても、クリーン信号に対する高忠実度を維持し、最小限の聴覚的アーティファクトで動作します。さらに、入力信号が4000Hzと4ビットに圧縮された場合でも性能が保たれることから、低リソース環境での一般的な音声強化能力が示唆されます。以下のコマンドでインストールして試すことができます:pip install attenuate

aTENNuate: Rawオーディオ上の深層SSMを用いた最適化されたリアルタイム音声強調 | 最新論文 | HyperAI超神経