vor 15 Tagen

TDFNet: Ein effizienter audio-visueller Sprachtrennungsmodell mit top-down Fusion

Samuel Pegg, Kai Li, Xiaolin Hu

Abstract

Die audio-visuelle Sprachtrennung hat in den letzten Jahren erhebliche Aufmerksamkeit gefunden, da sie in zahlreichen Bereichen wie Spracherkennung, Diarisation, Szenenanalyse und assistiven Technologien Anwendung finden kann. Die Entwicklung eines leichten audio-visuellen Sprachtrennnetzwerks ist für Anwendungen mit geringer Latenz von entscheidender Bedeutung, wobei bestehende Methoden oft hohe Rechenkosten und eine große Anzahl an Parametern erfordern, um eine verbesserte Trennleistung zu erzielen. In diesem Artikel präsentieren wir ein audio-visuelles Sprachtrennmodell namens Top-Down-Fusion Net (TDFNet), ein state-of-the-art (SOTA)-Modell für die audio-visuelle Sprachtrennung, das auf der Architektur von TDANet, einer audio-basierten Sprachtrennmethode, aufbaut. TDANet dient als architektonische Grundlage für die auditorischen und visuellen Netzwerke innerhalb von TDFNet und bietet ein effizientes Modell mit geringerer Parameteranzahl. Auf dem LRS2-2Mix-Datensatz erreicht TDFNet im Vergleich zur vorherigen SOTA-Methode CTCNet eine Leistungssteigerung von bis zu 10 % in allen Bewertungsmaßen. Erstaunlicherweise werden diese Ergebnisse mit weniger Parametern und lediglich 28 % der Multiply-Accumulate-Operationen (MACs) von CTCNet erzielt. Insgesamt stellt unsere Methode eine hochwirksame und effiziente Lösung für die Herausforderungen der Sprachtrennung im audio-visuellen Bereich dar und macht erhebliche Fortschritte bei der optimalen Nutzung visueller Informationen.