2ヶ月前

MMDenseLSTM: 音源分離のための効率的な畳み込みニューラルネットワークと再帰型ニューラルネットワークの組み合わせ

Naoya Takahashi; Nabarun Goswami; Yuki Mitsufuji
MMDenseLSTM: 音源分離のための効率的な畳み込みニューラルネットワークと再帰型ニューラルネットワークの組み合わせ
要約

深層ニューラルネットワークは、音源分離(Audio Source Separation: ASS)において欠かせない技術となっています。最近の報告によると、CNNアーキテクチャの一種であるMMDenseNetが、音源振幅の推定というASS問題を解決するために成功裏に使用され、DSD100データセットに対して最先端の結果が得られました。MMDenseNetをさらに強化するため、本稿では複数スケールでの長期短期記憶(Long Short-Term Memory: LSTM)とスキップ接続を組み合わせた新しいアーキテクチャを提案します。この方法により、オーディオコンテキスト内の長期的な構造を効率的にモデル化することができます。実験結果は、提案手法がMMDenseNet、LSTMおよびこれらの2つのネットワークの単純なブレンドよりも優れた性能を示していることを示しています。提案モデルのパラメータ数と処理時間は、単純なブレンドよりも大幅に少ないです。さらに、提案手法は理想のバイナリマスクを使用した歌唱声分離タスクで得られた結果よりも優れています。

MMDenseLSTM: 音源分離のための効率的な畳み込みニューラルネットワークと再帰型ニューラルネットワークの組み合わせ | 最新論文 | HyperAI超神経