HyperAI

Streaming Target Sound Extraction

Streaming Target Sound Extraction ist eine Variante der Target Sound Extraction-Aufgabe, die sich auf Echtzeit-Audioverarbeitung konzentriert. Diese Aufgabe erfordert, dass der Algorithmus bei jedem Zeitpunkt Audiosegmente verarbeitet, die kürzer als 20 Millisekunden sind, und nur vergangene Daten verwendet, um eine geringe Latenz und Kausalität zu gewährleisten. Das Ziel besteht darin, das Zielgeräusch in einer Echtzeit-Streaming-Umgebung präzise zu extrahieren, was bedeutende Anwendungsmöglichkeiten bietet, wie zum Beispiel Echtzeitsprachverbesserung, Rauschunterdrückung und Audiomonitoring.