End-to-End-Musikquellenseparation: Ist dies im Wellenformbereich möglich?

Die meisten derzeit erfolgreichen Quellentrennungstechniken verwenden das Amplitudenspektrum als Eingabe und lassen daher implizit einen Teil des Signals aus: die Phase. Um potenziell nützliche Informationen nicht zu vernachlässigen, untersuchen wir die Machbarkeit von End-to-End-Modellen für die Musikquellentrennung – welche alle im Rohaudiosignal verfügbaren Informationen berücksichtigen, einschließlich der Phase. Obwohl End-to-End-Musikquellentrennung in den letzten Jahrzehnten als fast unerreichbar angesehen wurde, bestätigen unsere Ergebnisse, dass wellenformbasierte Modelle ähnlich gut (wenn nicht besser) abschneiden können wie ein spektrogrammbasierter Tiefenlernmodell. Insbesondere: Das von uns vorgeschlagene Wavenet-basierte Modell und Wave-U-Net können DeepConvSep, einem aktuellen spektrogrammbasierten Tiefenlernmodell, überlegen sein.