
要約
音楽源分離とは、音楽をその構成要素(例:ボーカル、ベース、ドラムなど)に分解するタスクであり、各楽器や声部ごとの分離音源(ステム)を生成することを目的とする。このような分離技術は、ステムの再編集・再利用(リミックス、リパニング、アップミックス)から完全な音源抽出(カラオケ生成、サンプル作成、音声修復)まで、多岐にわたる応用が可能である。音楽分離は、非常に困難な問題として長年にわたり科学的活動の対象となっており、近年ではディープラーニングに基づくシステムが、初めて高品質な分離結果を達成したことで、商業的な関心も高まっている。しかし、これまで、最先端の性能を達成するオープンソースの実装は存在しなかった。Open-Unmixは、このギャップを埋めるべく、深層ニューラルネットワークに基づく参照実装を提供する。本システムは、主に2つの目的を果たす。第一に、研究の加速を図ること。Open-Unmixは、最も普及しているディープラーニングフレームワークに対応した実装を提供しており、研究者が結果の再現を柔軟に実施できるようにしている。第二に、エンドユーザー、さらにはアーティスト向けに事前学習済みモデルを提供し、音源分離の実用化を促進している。さらに、Open-Unmixは、音楽分離に関するオープンエコシステムの核となるコンポーネントとして設計されており、既にオープンデータセットやソフトウェアユーティリティ、オープンな評価手法を提供することで、再現可能性のある研究を基盤として、今後の開発を促進する体制を構築している。