HyperAIHyperAI
vor 15 Tagen

IIANet: Ein intra- und inter-modaler Aufmerksamkeitsnetzwerk für audio-visuelle Sprachtrennung

Kai Li, Runxuan Yang, Fuchun Sun, Xiaolin Hu
IIANet: Ein intra- und inter-modaler Aufmerksamkeitsnetzwerk für audio-visuelle Sprachtrennung
Abstract

Kürzliche Forschungsarbeiten haben erhebliche Fortschritte bei der Entwicklung von Fusionsmodulen für audio-visuelle Sprachtrennung erzielt. Allerdings konzentrieren sich diese Ansätze überwiegend auf die multimodale Fusion auf einer einzigen zeitlichen Skala der auditiven und visuellen Merkmale, ohne selektive Aufmerksamkeitsmechanismen einzusetzen – ein Ansatz, der in starkem Gegensatz zum menschlichen Gehirn steht. Um dieses Problem zu adressieren, schlagen wir ein neuartiges Modell namens Intra- und Inter-Aufmerksamkeits-Netzwerk (IIANet) vor, das den Aufmerksamkeitsmechanismus zur effizienten audio-visuellen Merkmalsfusion nutzt. IIANet besteht aus zwei Arten von Aufmerksamkeitsblöcken: Intra-Aufmerksamkeits- (IntraA) und Inter-Aufmerksamkeits- (InterA) Blöcken, wobei die InterA-Blöcke an oberer, mittlerer und unterer Stelle innerhalb des IIANet verteilt sind. Stark inspiriert durch die Art und Weise, wie das menschliche Gehirn auf verschiedenen zeitlichen Skalen gezielt auf relevante Inhalte fokussiert, behalten diese Blöcke die Fähigkeit, modality-spezifische Merkmale zu lernen und ermöglichen die Extraktion unterschiedlicher Semantik aus audio-visuellen Merkmalen. Umfassende Experimente an drei etablierten Benchmarks für audio-visuelle Trennung (LRS2, LRS3 und VoxCeleb2) belegen die Wirksamkeit von IIANet, das sowohl gegenüber früheren state-of-the-art-Methoden die Leistung übertrifft als auch eine vergleichbare Inferenzzeit beibehält. Insbesondere erreicht die schnelle Variante von IIANet (IIANet-fast) nur 7 % der MACs von CTCNet und ist auf CPUs um 40 % schneller als CTCNet, während gleichzeitig eine bessere Trennqualität erzielt wird. Dies unterstreicht das große Potenzial des Aufmerksamkeitsmechanismus für eine effiziente und wirksame multimodale Fusion.

IIANet: Ein intra- und inter-modaler Aufmerksamkeitsnetzwerk für audio-visuelle Sprachtrennung | Neueste Forschungsarbeiten | HyperAI