8ヶ月前

音声および音声処理

マルチタスク学習

ディープラーニング

アプローチ／フレームワーク

オーディオ

Yan Ru Pei Ritik Shrivastava FNU Sidharth

概要

私たちは、効率的なオンライン生音声強化のためにエンドツーエンドで構成された単純な深層状態空間オートエンコーダーであるaTENNuateを提案します。このネットワークの性能は主に生音声のノイズ除去において評価され、さらにスーパーレゾリューションや量子化解除などのタスクについても評価が行われています。aTENNateはVoiceBank + DEMANDおよびMicrosoft DNS1の合成テストセットでベンチマークされています。PESQスコア、パラメータ数、MACs（Multiply-Accumulate Operations）、およびレイテンシの面で、以前のリアルタイムノイズ除去モデルを上回る性能を示しています。生波形処理モデルとしても、クリーン信号に対する高忠実度を維持し、最小限の聴覚的アーティファクトで動作します。さらに、入力信号が4000Hzと4ビットに圧縮された場合でも性能が保たれることから、低リソース環境での一般的な音声強化能力が示唆されます。以下のコマンドでインストールして試すことができます：pip install attenuate

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

音声および音声処理

マルチタスク学習

ディープラーニング

アプローチ／フレームワーク

オーディオ

Yan Ru Pei Ritik Shrivastava FNU Sidharth

概要

私たちは、効率的なオンライン生音声強化のためにエンドツーエンドで構成された単純な深層状態空間オートエンコーダーであるaTENNuateを提案します。このネットワークの性能は主に生音声のノイズ除去において評価され、さらにスーパーレゾリューションや量子化解除などのタスクについても評価が行われています。aTENNateはVoiceBank + DEMANDおよびMicrosoft DNS1の合成テストセットでベンチマークされています。PESQスコア、パラメータ数、MACs（Multiply-Accumulate Operations）、およびレイテンシの面で、以前のリアルタイムノイズ除去モデルを上回る性能を示しています。生波形処理モデルとしても、クリーン信号に対する高忠実度を維持し、最小限の聴覚的アーティファクトで動作します。さらに、入力信号が4000Hzと4ビットに圧縮された場合でも性能が保たれることから、低リソース環境での一般的な音声強化能力が示唆されます。以下のコマンドでインストールして試すことができます：pip install attenuate

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

aTENNuate: Rawオーディオ上の深層SSMを用いた最適化されたリアルタイム音声強調 | 記事 | HyperAI超神経