HyperAIHyperAI
vor 16 Tagen

Musikquellentrennung im Wellenformbereich

Alexandre Défossez, Nicolas Usunier, Léon Bottou, Francis Bach
Musikquellentrennung im Wellenformbereich
Abstract

Die Quellentrennung für Musik ist die Aufgabe, Beiträge, sogenannte Stems, verschiedener Instrumente zu isolieren, die einzeln aufgenommen und anschließend zu einem Song zusammengefügt wurden. Zu diesen Komponenten gehören Stimme, Bass, Schlagzeug sowie alle weiteren Begleitinstrumente. Im Gegensatz zu vielen Aufgaben der Audiosynthese, bei denen die besten Ergebnisse mit Modellen erzielt werden, die direkt Wellenformen generieren, basiert der Stand der Technik bei der Quellentrennung für Musik auf der Berechnung von Masken im Betrags-Spektrum. In diesem Paper vergleichen wir zwei Architekturen im Wellenform-Domäne. Zunächst adaptieren wir Conv-Tasnet, ursprünglich für die Quellentrennung von Sprache entwickelt, auf die Aufgabe der Musik-Quellentrennung. Obwohl Conv-Tasnet zahlreiche bestehende Spektrum-basierte Methoden schlägt, leidet es unter signifikanten Artefakten, wie menschliche Bewertungen zeigen. Stattdessen schlagen wir Demucs vor, ein neuartiges Wellenform-zu-Wellenform-Modell mit einer U-Net-Architektur und bidirektionalen LSTM. Experimente auf dem MusDB-Datensatz zeigen, dass Demucs bei geeigneter Datenverstärkung alle bestehenden State-of-the-Art-Architekturen, einschließlich Conv-Tasnet, schlägt, mit durchschnittlich 6,3 SDR (und bis zu 6,8 bei 150 zusätzlichen Trainingsliedern), wodurch sogar das IRM-Oracle für die Bassquelle übertroffen wird. Durch jüngste Fortschritte in der Modellquantisierung kann Demucs auf 120 MB komprimiert werden, ohne dass dabei Genauigkeit verloren geht. Zudem liefern wir menschliche Bewertungen, die zeigen, dass Demucs im Hinblick auf die Natürlichkeit des Audios erhebliche Vorteile bietet. Allerdings leidet es unter gewissen Überlappungen, insbesondere zwischen Gesang und anderen Quellen.

Musikquellentrennung im Wellenformbereich | Neueste Forschungsarbeiten | HyperAI