2ヶ月前

単一音声信号の除響処理における時間畳み込みネットワークの受容野解析

William Ravenscroft; Stefan Goetze; Thomas Hain
単一音声信号の除響処理における時間畳み込みネットワークの受容野解析
要約

音響反響除去は、堅牢な音声処理タスクにおいてしばしば重要な要件となっています。教師ありの深層学習(Deep Learning: DL)モデルは、単一チャネルの音響反響除去において最先端の性能を発揮します。時間畳み込みネットワーク(Temporal Convolutional Networks: TCNs)は、音声強化タスクにおけるシーケンスモデリングに一般的に使用されています。TCNsの特徴の一つは、特定のモデル構成に依存する受容野(Receptive Field: RF)があり、個々の出力フレームを生成するために観察できる入力フレーム数が決まっていることです。TCNsがシミュレートされた音声データの反響除去を行う能力があることは示されていますが、特に受容野に焦点を当てた包括的な分析はまだ文献に不足しています。本論文では、モデルサイズとTCNsの受容野に応じた反響除去性能を分析しています。WHAMRコーパスを使用した実験では、T60値が大きい部屋インパルス応答(Room Impulse Responses: RIRs)を含むように拡張され、较小なTCNモデルを訓練する際に大きな受容野が性能向上に大きく寄与することが示されました。また、T60値が大きいRIRsに対する反響除去においても、TCNsは広い受容野から恩恵を受けていることが確認されました。

単一音声信号の除響処理における時間畳み込みネットワークの受容野解析 | 最新論文 | HyperAI超神経