HyperAIHyperAI

Command Palette

Search for a command to run...

IIANet: Ein intra- und inter-modaler Aufmerksamkeitsnetzwerk für audio-visuelle Sprachtrennung

Kai Li Runxuan Yang Fuchun Sun Xiaolin Hu

Zusammenfassung

Kürzliche Forschungsarbeiten haben erhebliche Fortschritte bei der Entwicklung von Fusionsmodulen für audio-visuelle Sprachtrennung erzielt. Allerdings konzentrieren sich diese Ansätze überwiegend auf die multimodale Fusion auf einer einzigen zeitlichen Skala der auditiven und visuellen Merkmale, ohne selektive Aufmerksamkeitsmechanismen einzusetzen – ein Ansatz, der in starkem Gegensatz zum menschlichen Gehirn steht. Um dieses Problem zu adressieren, schlagen wir ein neuartiges Modell namens Intra- und Inter-Aufmerksamkeits-Netzwerk (IIANet) vor, das den Aufmerksamkeitsmechanismus zur effizienten audio-visuellen Merkmalsfusion nutzt. IIANet besteht aus zwei Arten von Aufmerksamkeitsblöcken: Intra-Aufmerksamkeits- (IntraA) und Inter-Aufmerksamkeits- (InterA) Blöcken, wobei die InterA-Blöcke an oberer, mittlerer und unterer Stelle innerhalb des IIANet verteilt sind. Stark inspiriert durch die Art und Weise, wie das menschliche Gehirn auf verschiedenen zeitlichen Skalen gezielt auf relevante Inhalte fokussiert, behalten diese Blöcke die Fähigkeit, modality-spezifische Merkmale zu lernen und ermöglichen die Extraktion unterschiedlicher Semantik aus audio-visuellen Merkmalen. Umfassende Experimente an drei etablierten Benchmarks für audio-visuelle Trennung (LRS2, LRS3 und VoxCeleb2) belegen die Wirksamkeit von IIANet, das sowohl gegenüber früheren state-of-the-art-Methoden die Leistung übertrifft als auch eine vergleichbare Inferenzzeit beibehält. Insbesondere erreicht die schnelle Variante von IIANet (IIANet-fast) nur 7 % der MACs von CTCNet und ist auf CPUs um 40 % schneller als CTCNet, während gleichzeitig eine bessere Trennqualität erzielt wird. Dies unterstreicht das große Potenzial des Aufmerksamkeitsmechanismus für eine effiziente und wirksame multimodale Fusion.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp