vor 15 Tagen

Zweistufige Trennung akustischer Quellen: Training auf gelernten latente Zielen

Efthymios Tzinis, Shrikant Venkataramani, Zhepei Wang, Cem Subakan, Paris Smaragdis

Abstract

In diesem Artikel schlagen wir ein zweistufiges Trainingsverfahren für die Quellentrennung mittels eines tiefen neuronalen Netzwerks vor. Im ersten Schritt lernen wir eine Transformation (sowie ihre Umkehrung) in einen latente Raum, in dem die Leistung einer maskenbasierten Trennung unter Verwendung von Orakeln optimal ist. Im zweiten Schritt trainieren wir ein Trennmodul, das in dem zuvor gelernten Raum operiert. Dazu nutzen wir zudem eine skaleninvariante Signal-zu-Störverhältnis-(SI-SDR)-Verlustfunktion, die im latente Raum definiert ist, und beweisen, dass sie eine untere Schranke für das SI-SDR im Zeitbereich darstellt. Wir führen verschiedene Experimente zur Audio-Trennung durch, die zeigen, dass dieser Ansatz gegenüber Systemen, die die Transformation und das Trennmodul gemeinsam lernen, eine bessere Leistung erzielt. Die vorgeschlagene Methodik ist allgemein genug, um auf eine große Klasse von neuronalen Netzwerken für end-to-end-Trennungssysteme anwendbar zu sein.