Zielklangextraktion | SOTA | HyperAI

Target Sound Extraction ist die Aufgabe, bestimmte Klangkategorien aus gemischten Audiosignalen zu extrahieren. Ziel dieser Aufgabe ist es, vorgegebene Vordergrundklänge aus komplexen audiovisuellen Umgebungen zu trennen, die Hintergrundgeräusche enthalten. Die Eingabeform für das Modell kann ein String, eine Ganzzahl oder eine One-Hot-Codierung von Klangkategorien sein. Diese Technik hat erheblichen Anwendungswert in Bereichen wie Spracherkennung, Musikverarbeitung und Umweltakustiküberwachung.