Command Palette
Search for a command to run...
対照学習に基づく深層潜在マスキングによる音楽ソース分離
対照学習に基づく深層潜在マスキングによる音楽ソース分離
Hong-Goo Kang Jihyun Kim
概要
音声源分離に関する最近の研究は、一般的な音声信号への応用範囲を拡大している。カスタムイコライザーの提供や、多様なエフェクトを用いたライブストリーミング音質の向上といったサービスを実現するためには、音声源分離のリアルタイム処理が不可欠である。しかし、従来の多くの手法は、高い計算複雑性、大きなメモリ消費、または長時間のレイテンシのため、リアルタイム応用に適していなかった。こうした課題を克服するため、本研究では、深層潜在表現領域における高次元マスキングを活用するWave-U-Net型の音声源分離ネットワークを提案する。さらに、マスキングに基づくアプローチを用いて、各ターゲット音源の顕著な潜在空間埋め込みを推定するための対照学習技術を導入している。提案モデルの性能は、MUSDB18HQデータセットを用いて複数のベースラインと比較して評価された。実験の結果、本モデルがリアルタイム処理を実現可能であり、既存のモデルを上回る性能を発揮することが確認された。