TasNet: Zeitdomänen-Audioscheidungsnetzwerk für Echtzeit-Sprachtrennung in einem Kanal

Robuste Sprachverarbeitung in Mehrsprecherumgebungen erfordert eine effektive Sprachtrennung. Kürzlich haben tiefen Lernsysteme bei der Lösung dieses Problems erhebliche Fortschritte gemacht, es bleibt jedoch insbesondere in Echtzeit- und kurzwelligen Anwendungen herausfordernd. Die meisten Methoden versuchen, für jede Quelle im Zeit-Frequenz-Darstellung des Mischsignals eine Maske zu konstruieren, was nicht unbedingt die optimale Darstellung für die Sprachtrennung ist. Zudem führt die Zeit-Frequenz-Zerlegung zu inherenten Problemen wie Phasen-/Amplitudenentkopplung und einem langen Zeitfenster, das erforderlich ist, um eine ausreichende Frequenzauflösung zu erreichen. Wir schlagen das Time-domain Audio Separation Network (TasNet) vor, um diese Einschränkungen zu überwinden. Wir modellieren das Signal direkt im Zeitbereich unter Verwendung eines Encoder-Decoder-Frameworks und führen die Quellentrennung auf den nichtnegativen Encoder-Ausgaben durch. Diese Methode eliminiert den Schritt der Frequenzzerlegung und reduziert das Trennungsproblem auf die Schätzung von Quellenmasken auf den Encoder-Ausgaben, die dann vom Decoder synthetisiert werden. Unser System übertrifft die aktuellen standesüblichen kausalen und nichtkausalen Sprachtrennalgorithmen, senkt die Rechenkosten der Sprachtrennung und verringert erheblich die minimale erforderliche Latenz des Ausgangssignals. Dies macht TasNet geeignet für Anwendungen, bei denen eine Low-Power-, Echtzeitimplementierung wünschenswert ist, wie z.B. in Hörfunkgeräten und Telekommunikationsgeräten.