HyperAIHyperAI
vor 2 Monaten

RTFS-Net: Rekurrentes Zeit-Frequenz-Modellierung für effiziente audiovisuelle Sprachtrennung

Pegg, Samuel ; Li, Kai ; Hu, Xiaolin
RTFS-Net: Rekurrentes Zeit-Frequenz-Modellierung für effiziente audiovisuelle Sprachtrennung
Abstract

Methoden zur audiovisuellen Sprachtrennung zielen darauf ab, verschiedene Modalitäten zu integrieren, um hochwertige getrennte Sprache zu generieren und damit die Leistung von nachgelagerten Aufgaben wie der Spracherkennung zu verbessern. Die meisten existierenden state-of-the-art (SOTA) Modelle arbeiten im Zeitbereich. Allerdings erfordert ihre übermäßig vereinfachte Modellierung akustischer Merkmale oft größere und rechenaufwändigere Modelle, um eine SOTA-Leistung zu erreichen. In dieser Arbeit stellen wir ein neues Verfahren zur audiovisuellen Sprachtrennung im Zeit-Frequenz-Bereich vor: das Rekurrente Zeit-Frequenz-Trennungsnetzwerk (RTFS-Net). Dieses Netzwerk wendet seine Algorithmen auf die komplexen Zeit-Frequenz-Zellen an, die durch die Kurzzeit-Fourier-Transformation (Short-Time Fourier Transform) erzeugt werden. Wir modellieren und erfassen die zeitliche und frequenzbezogene Dimension des Audios unabhängig voneinander mithilfe einer mehrschichtigen RNN entlang jeder Dimension. Darüber hinaus führen wir eine einzigartige aufmerksamkeitsbasierte Fusionsmethode ein, die eine effiziente Integration von audio- und visueller Information ermöglicht, sowie einen neuen Maskentrennungsansatz, der das intrinsische spektrale Wesen der akustischen Merkmale nutzt, um eine klarere Trennung zu erreichen. RTFS-Net übertrifft die bisherige SOTA-Methode sowohl in Bezug auf Inferenzgeschwindigkeit als auch auf Trennqualität, während es gleichzeitig die Anzahl der Parameter um 90 % und die MACs (Multiplies-Accumulates) um 83 % reduziert. Dies ist das erste Zeit-Frequenz-Bereichs-Verfahren zur audiovisuellen Sprachtrennung, das alle zeitgleich verfügbaren Zeitbereichs-Modelle in den Schatten stellt.

RTFS-Net: Rekurrentes Zeit-Frequenz-Modellierung für effiziente audiovisuelle Sprachtrennung | Neueste Forschungsarbeiten | HyperAI