HyperAIHyperAI

Command Palette

Search for a command to run...

単一音声信号の除響処理における時間畳み込みネットワークの受容野解析

William Ravenscroft Stefan Goetze Thomas Hain

概要

音響反響除去は、堅牢な音声処理タスクにおいてしばしば重要な要件となっています。教師ありの深層学習(Deep Learning: DL)モデルは、単一チャネルの音響反響除去において最先端の性能を発揮します。時間畳み込みネットワーク(Temporal Convolutional Networks: TCNs)は、音声強化タスクにおけるシーケンスモデリングに一般的に使用されています。TCNsの特徴の一つは、特定のモデル構成に依存する受容野(Receptive Field: RF)があり、個々の出力フレームを生成するために観察できる入力フレーム数が決まっていることです。TCNsがシミュレートされた音声データの反響除去を行う能力があることは示されていますが、特に受容野に焦点を当てた包括的な分析はまだ文献に不足しています。本論文では、モデルサイズとTCNsの受容野に応じた反響除去性能を分析しています。WHAMRコーパスを使用した実験では、T60値が大きい部屋インパルス応答(Room Impulse Responses: RIRs)を含むように拡張され、较小なTCNモデルを訓練する際に大きな受容野が性能向上に大きく寄与することが示されました。また、T60値が大きいRIRsに対する反響除去においても、TCNsは広い受容野から恩恵を受けていることが確認されました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています