HyperAIHyperAI

Command Palette

Search for a command to run...

TDFNet: Ein effizienter audio-visueller Sprachtrennungsmodell mit top-down Fusion

Samuel Pegg Kai Li Xiaolin Hu

Zusammenfassung

Die audio-visuelle Sprachtrennung hat in den letzten Jahren erhebliche Aufmerksamkeit gefunden, da sie in zahlreichen Bereichen wie Spracherkennung, Diarisation, Szenenanalyse und assistiven Technologien Anwendung finden kann. Die Entwicklung eines leichten audio-visuellen Sprachtrennnetzwerks ist für Anwendungen mit geringer Latenz von entscheidender Bedeutung, wobei bestehende Methoden oft hohe Rechenkosten und eine große Anzahl an Parametern erfordern, um eine verbesserte Trennleistung zu erzielen. In diesem Artikel präsentieren wir ein audio-visuelles Sprachtrennmodell namens Top-Down-Fusion Net (TDFNet), ein state-of-the-art (SOTA)-Modell für die audio-visuelle Sprachtrennung, das auf der Architektur von TDANet, einer audio-basierten Sprachtrennmethode, aufbaut. TDANet dient als architektonische Grundlage für die auditorischen und visuellen Netzwerke innerhalb von TDFNet und bietet ein effizientes Modell mit geringerer Parameteranzahl. Auf dem LRS2-2Mix-Datensatz erreicht TDFNet im Vergleich zur vorherigen SOTA-Methode CTCNet eine Leistungssteigerung von bis zu 10 % in allen Bewertungsmaßen. Erstaunlicherweise werden diese Ergebnisse mit weniger Parametern und lediglich 28 % der Multiply-Accumulate-Operationen (MACs) von CTCNet erzielt. Insgesamt stellt unsere Methode eine hochwirksame und effiziente Lösung für die Herausforderungen der Sprachtrennung im audio-visuellen Bereich dar und macht erhebliche Fortschritte bei der optimalen Nutzung visueller Informationen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
TDFNet: Ein effizienter audio-visueller Sprachtrennungsmodell mit top-down Fusion | Paper | HyperAI