
要約
音楽の音源分離は、個別に録音された異なる楽器の貢献(ステム)を分離し、それらを組み合わせて楽曲を構成するタスクである。このような成分にはボーカル、ベース、ドラム、およびその他の伴奏が含まれる。多くの音声合成タスクでは、波形を直接生成するモデルが最高の性能を発揮するのに対し、音楽の音源分離の最先端技術は、マグニチュードスペクトル上にマスクを計算する手法である。本論文では、波形ドメインにおける2つのアーキテクチャを比較する。まず、当初音声の音源分離を目的として開発されたConv-Tasnetを、音楽の音源分離タスクに適応させる。Conv-Tasnetは、スペクトログラムドメインの多数の既存手法を上回る性能を示すが、人間評価において顕著なアーティファクトが見られるという問題を抱えている。そこで本研究では、U-Net構造と双方向LSTMを備えた新たな波形から波形へのモデル、Demucsを提案する。MusDBデータセットを用いた実験の結果、適切なデータ拡張を施した場合、DemucsはConv-Tasnetを含むすべての既存の最先端アーキテクチャを上回り、平均6.3のSDR(Signal-to-Distortion Ratio)を達成した(150曲の追加学習データを使用した場合、最大6.8まで向上し、ベース音源に関してはIRMオラクルをも凌駕した)。近年のモデル量子化技術を活用することで、Demucsは精度の損失なしに120MBまで圧縮可能である。また、人間評価の結果も提示し、Demucsが音声の自然さにおいて顕著な優位性を示していることを示した。一方で、特にボーカルと他の音源との間で「漏れ(bleeding)」が生じるという課題も確認された。