HyperAIHyperAI

Command Palette

Search for a command to run...

Zweistufige Trennung akustischer Quellen: Training auf gelernten latente Zielen

Efthymios Tzinis Shrikant Venkataramani Zhepei Wang Cem Subakan Paris Smaragdis

Zusammenfassung

In diesem Artikel schlagen wir ein zweistufiges Trainingsverfahren für die Quellentrennung mittels eines tiefen neuronalen Netzwerks vor. Im ersten Schritt lernen wir eine Transformation (sowie ihre Umkehrung) in einen latente Raum, in dem die Leistung einer maskenbasierten Trennung unter Verwendung von Orakeln optimal ist. Im zweiten Schritt trainieren wir ein Trennmodul, das in dem zuvor gelernten Raum operiert. Dazu nutzen wir zudem eine skaleninvariante Signal-zu-Störverhältnis-(SI-SDR)-Verlustfunktion, die im latente Raum definiert ist, und beweisen, dass sie eine untere Schranke für das SI-SDR im Zeitbereich darstellt. Wir führen verschiedene Experimente zur Audio-Trennung durch, die zeigen, dass dieser Ansatz gegenüber Systemen, die die Transformation und das Trennmodul gemeinsam lernen, eine bessere Leistung erzielt. Die vorgeschlagene Methodik ist allgemein genug, um auf eine große Klasse von neuronalen Netzwerken für end-to-end-Trennungssysteme anwendbar zu sein.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zweistufige Trennung akustischer Quellen: Training auf gelernten latente Zielen | Paper | HyperAI