HyperAIHyperAI

Command Palette

Search for a command to run...

チャネル注意力を備えたDense U-Netを用いたマルチチャネル音声強調

Bahareh Tolooshams Ritwik Giri Andrew H. Song Umut Isik Arvindh Krishnaswamy

概要

近年、教師ありディープラーニングは音声強調分野において大きな注目を集めている。最先端のディープラーニング手法は、混合音声信号を時間周波数領域で処理し、その上で比マスクまたはバイナリマスクを学習・適用することで、クリーン音声を生成する。単一チャネル環境では優れた性能を発揮するが、マルチチャネル環境では性能が劣化する傾向がある。その主な理由は、これらの手法の多くがa) 利用可能な空間情報を十分に活用できていないこと、およびb) ディープアーキテクチャをブラックボックスとして扱っているため、マルチチャネル音声処理に適していない可能性があることにある。本論文では、これらの課題に対処するため、a) スペクトログラムの振幅に対するマスクではなく、複素比マスクを用いることで、位相情報も有効に活用し、さらにb) ディープアーキテクチャ内にチャネルアテンション機構を導入し、ビームフォーミングの挙動を模倣するアプローチを提案する。具体的には、チャネルアテンションユニットをネットワークの各層における特徴マップに再帰的に適用する「チャネルアテンション付き Dense U-Net」を提案し、非線形ビームフォーミングを実現可能なネットワーク構造を構築した。提案手法は、CHiME-3データセットを用いた実験において、最先端手法と比較して優れた性能を示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
チャネル注意力を備えたDense U-Netを用いたマルチチャネル音声強調 | 記事 | HyperAI超神経