2ヶ月前
単一チャネル音声の残響除去に向けた発話重み付き多段拡張テンポラル畳み込みネットワーク
William Ravenscroft; Stefan Goetze; Thomas Hain

要約
音響除反響は多くの音声技術応用において重要な段階です。この分野の最近の研究は、深層ニューラルネットワークモデルを中心に展開されています。時間畳み込みネットワーク(Temporal Convolutional Networks: TCNs)は、音声の除反響タスクにおける系列モデリングに提案された深層学習モデルです。本研究では、標準的な深度別分離畳み込みを置き換えるために、重み付き多ディレーション深度別分離畳み込みが提案されています。この提案された畳み込みにより、TCNはネットワーク内の各畳み込みブロックで受容野内の局所情報に動的に焦点を当てるか否かを選択できるようになります。実験結果から、この重み付き多ディレーション時間畳み込みネットワーク(Weighted Multi-Dilation Temporal Convolutional Network: WD-TCN)は、様々なモデル構成においてTCNを一貫して上回ることが示されました。また、WD-TCNモデルを使用することで、畳み込みブロックの数を増やすよりもパラメータ効率よくモデルの性能を向上させることができます。基準となるTCNに対して最大で0.55 dBのスケール不変信号対歪比率(Scale-Invariant Signal-to-Distortion Ratio: SISDR)の性能向上が見られ、最良のWD-TCNモデルはWHAMRデータセット上で12.26 dBのSISDRを達成しました。