8ヶ月前

畳み込みニューラルネットワーク

音声および音声処理

アプローチ／フレームワーク

オーディオ

Dongheon Lee, Student Member, IEEE Jung-Woo Choi, Member, IEEE

概要

本研究では、マルチチャネル音声強化のための密な周波数-時間注意ネットワーク（DeFT-AN）を提案します。DeFT-ANは、入力信号の短時間フーリエ変換（STFT）に埋め込まれたノイズと残響を抑制するための複素スペクトルマスクパターンを予測するマスク推定ネットワークです。提案されたマスク推定ネットワークは、空間、スペクトル、および時間次元での情報を集約するために3種類の異なるブロックを組み込んでいます。このネットワークは、修正されたフィードフォワードネットワークを持つスペクトルトランスフォーマーと、逐次的なディラテッド畳み込みを行うテンポラルコンフォーマーを利用しています。音声信号の3つの異なる特性に特化した密なブロックとトランスフォーマーを使用することで、ノイジーや残響のある環境でのより包括的な強化が可能となります。DeFT-ANの優れた性能は、2つの人気のあるノイジーかつ残響データセットを用いて、音声品質と理解度に関する様々な指標に基づいて示されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

畳み込みニューラルネットワーク

音声および音声処理

アプローチ／フレームワーク

オーディオ

Dongheon Lee, Student Member, IEEE Jung-Woo Choi, Member, IEEE

概要

本研究では、マルチチャネル音声強化のための密な周波数-時間注意ネットワーク（DeFT-AN）を提案します。DeFT-ANは、入力信号の短時間フーリエ変換（STFT）に埋め込まれたノイズと残響を抑制するための複素スペクトルマスクパターンを予測するマスク推定ネットワークです。提案されたマスク推定ネットワークは、空間、スペクトル、および時間次元での情報を集約するために3種類の異なるブロックを組み込んでいます。このネットワークは、修正されたフィードフォワードネットワークを持つスペクトルトランスフォーマーと、逐次的なディラテッド畳み込みを行うテンポラルコンフォーマーを利用しています。音声信号の3つの異なる特性に特化した密なブロックとトランスフォーマーを使用することで、ノイジーや残響のある環境でのより包括的な強化が可能となります。DeFT-ANの優れた性能は、2つの人気のあるノイジーかつ残響データセットを用いて、音声品質と理解度に関する様々な指標に基づいて示されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています