HyperAIHyperAI

Command Palette

Search for a command to run...

FullSubNet+:複素スペクトログラムを用いたチャネルアテンション付きFullSubNetによる音声強調

Jun Chen Zilin Wang Deyi Tuo Zhiyong Wu Shiyin Kang Helen Meng

概要

これまでに提案されたFullSubNetは、ディープノイズ抑制(DNS)チャレンジにおいて優れた性能を発揮し、注目を集めている。しかし、入出力の不一致や周波数帯域における粗い処理といった課題を依然として抱えている。本論文では、以下の重要な改良を加えた単一チャネルリアルタイム音声強調フレームワーク「FullSubNet+」を提案する。まず、マルチスケール畳み込みとチャネル注意力機構を組み合わせた軽量なマルチスケール時間感応型チャネル注意力(MulCA)モジュールを設計し、ノイズ低減においてより特徴的な周波数帯域に注目できるようにした。次に、ノイズ混在音声に含まれる位相情報の有効活用を図るため、モデルはすべてのマグニチュードスペクトログラムおよび実部・虚部スペクトログラムを入力として採用している。さらに、従来の全帯域モデルに用いられていた長短期記憶(LSTM)層をスタック型時系列畳み込みネットワーク(TCN)ブロックに置き換えることで、より効率的な全帯域抽出モジュール「full-band extractor」を構築した。DNSチャレンジデータセットにおける実験結果から、本提案手法FullSubNet+が優れた性能を発揮し、最先端(SOTA)水準に達しており、既存の音声強調手法を上回ることが明らかになった。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
FullSubNet+:複素スペクトログラムを用いたチャネルアテンション付きFullSubNetによる音声強調 | 記事 | HyperAI超神経