Spleeter: Ein Schneller Und Zustandsbestimmender Musik-Quellentrennungstool Mit Vortrainierten Modellen
Wir präsentieren und veröffentlichen ein neues Werkzeug für die Musikquellentrennung mit vortrainierten Modellen namens Spleeter. Spleeter wurde mit Fokus auf Benutzerfreundlichkeit, Trennleistung und Geschwindigkeit entwickelt. Spleeter basiert auf TensorFlow [1] und ermöglicht es, Audio-Dateien mit einem einzigen Befehl über die Kommandozeile in 2, 4 oder 5 Stems zu trennen, indem vortrainierte Modelle verwendet werden. Zudem kann man mit TensorFlow Quellentrennmodelle trainieren oder bestehende vortrainierte Modelle feinjustieren (sofern ein Datensatz aus isolierten Quellen zur Verfügung steht). Die Leistung der vortrainierten Modelle liegt sehr nahe an der veröffentlichten State-of-the-Art-Leistung und ist, soweit uns bekannt, das leistungsstärkste Modell für die Trennung in vier Stems, das öffentlich verfügbar ist, auf dem gängigen MusDB18-Benchmark [6]. Spleeter ist außerdem äußerst schnell: Es kann eine gemischte Audiodatei mit dem vortrainierten Vier-Stems-Modell auf einer einzigen Grafikkarte (GPU) 100-mal schneller als Echtzeit trennen. Spleeter ist in Docker verpackt, was die Nutzung auf verschiedenen Plattformen problemlos ermöglicht.