11日前

ハイブリッドスペクトログラムおよび波形ソース分離

Alexandre Défossez
ハイブリッドスペクトログラムおよび波形ソース分離
要約

音源分離モデルは、スペクトログラム領域または波形領域のいずれかで動作する。本研究では、各音源に最も適した領域をモデルが自動的に選択し、場合によっては両領域を組み合わせることを可能にする、エンドツーエンド型ハイブリッド音源分離の手法を提示する。提案するデムクス(Demucs)アーキテクチャのハイブリッド版は、ソニーが主催したMusic Demixing Challenge 2021で優勝を達成した。このアーキテクチャには、圧縮された残差ブランチ(compressed residual branches)、局所的アテンション(local attention)、特異値正則化(singular value regularization)といった追加的な改良も組み込まれている。全体として、MusDB HQデータセット上で測定された信号対歪み比(SDR)において、すべての音源で平均1.4 dBの向上が観察された。この改善は人間による主観評価でも確認されており、総合的な品質評価は5段階中2.83点(非ハイブリッド版デムクスは2.36点)を記録した。また、混入(contamination)の absence(存在しない状態)の評価では3.04点(非ハイブリッド版デムクスは2.37点、コンペティションで2位となったモデルは2.44点)を達成し、品質の向上と干渉の低減が同時に実現されたことが示された。

ハイブリッドスペクトログラムおよび波形ソース分離 | 最新論文 | HyperAI超神経