vor 6 Monaten

Zusammenfassung

Kürzliche Forschungsarbeiten haben erhebliche Fortschritte bei der Entwicklung von Fusionsmodulen für audio-visuelle Sprachtrennung erzielt. Allerdings konzentrieren sich diese Ansätze überwiegend auf die multimodale Fusion auf einer einzigen zeitlichen Skala der auditiven und visuellen Merkmale, ohne selektive Aufmerksamkeitsmechanismen einzusetzen – ein Ansatz, der in starkem Gegensatz zum menschlichen Gehirn steht. Um dieses Problem zu adressieren, schlagen wir ein neuartiges Modell namens Intra- und Inter-Aufmerksamkeits-Netzwerk (IIANet) vor, das den Aufmerksamkeitsmechanismus zur effizienten audio-visuellen Merkmalsfusion nutzt. IIANet besteht aus zwei Arten von Aufmerksamkeitsblöcken: Intra-Aufmerksamkeits- (IntraA) und Inter-Aufmerksamkeits- (InterA) Blöcken, wobei die InterA-Blöcke an oberer, mittlerer und unterer Stelle innerhalb des IIANet verteilt sind. Stark inspiriert durch die Art und Weise, wie das menschliche Gehirn auf verschiedenen zeitlichen Skalen gezielt auf relevante Inhalte fokussiert, behalten diese Blöcke die Fähigkeit, modality-spezifische Merkmale zu lernen und ermöglichen die Extraktion unterschiedlicher Semantik aus audio-visuellen Merkmalen. Umfassende Experimente an drei etablierten Benchmarks für audio-visuelle Trennung (LRS2, LRS3 und VoxCeleb2) belegen die Wirksamkeit von IIANet, das sowohl gegenüber früheren state-of-the-art-Methoden die Leistung übertrifft als auch eine vergleichbare Inferenzzeit beibehält. Insbesondere erreicht die schnelle Variante von IIANet (IIANet-fast) nur 7 % der MACs von CTCNet und ist auf CPUs um 40 % schneller als CTCNet, während gleichzeitig eine bessere Trennqualität erzielt wird. Dies unterstreicht das große Potenzial des Aufmerksamkeitsmechanismus für eine effiziente und wirksame multimodale Fusion.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Audio- Und Sprachverarbeitung

Multimodale Darstellung

Audio

Multimodal

Aufgabe

Kai Li Runxuan Yang Fuchun Sun Xiaolin Hu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Audio- Und Sprachverarbeitung

Multimodale Darstellung

Audio

Multimodal

Aufgabe

Kai Li Runxuan Yang Fuchun Sun Xiaolin Hu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

IIANet: Ein intra- und inter-modaler Aufmerksamkeitsnetzwerk für audio-visuelle Sprachtrennung

Kai Li Runxuan Yang Fuchun Sun Xiaolin Hu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

IIANet: Ein intra- und inter-modaler Aufmerksamkeitsnetzwerk für audio-visuelle Sprachtrennung

Kai Li Runxuan Yang Fuchun Sun Xiaolin Hu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

IIANet: Ein intra- und inter-modaler Aufmerksamkeitsnetzwerk für audio-visuelle Sprachtrennung

Kai Li Runxuan Yang Fuchun Sun Xiaolin Hu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters