HyperAIHyperAI

Command Palette

Search for a command to run...

Aufmerksamkeits-Engpässe für multimodale Fusion

Arsha Nagrani Shan Yang Anurag Arnab Aren Jansen Cordelia Schmid Chen Sun

Zusammenfassung

Menschen wahrnehmen die Welt durch die gleichzeitige Verarbeitung und Fusion hochdimensionaler Eingaben aus mehreren Modalitäten wie Vision und Audio. Im Gegensatz dazu sind maschinelle Wahrnehmungsmodelle typischerweise modality-spezifisch und auf einmodale Benchmark-Aufgaben optimiert, weshalb die späte Fusion finaler Darstellungen oder Vorhersagen aus jeder Modality – sogenannte „Late Fusion“ – weiterhin eine dominierende Herangehensweise für multimodale Video-Klassifikation darstellt. Stattdessen stellen wir eine neuartige Transformer-basierte Architektur vor, die sogenannte „Fusion Bottlenecks“ zur Modalitätsfusion auf mehreren Schichten nutzt. Im Vergleich zu traditionellen Paarweisen Self-Attention erzwingt unser Modell, dass Informationen zwischen verschiedenen Modalitäten durch eine geringe Anzahl von Bottleneck-Latenten fließen müssen, wodurch das Modell gezwungen wird, die relevantesten Informationen jeder Modality zu kollationieren und zu verdichten und lediglich das Notwendige zu teilen. Wir stellen fest, dass diese Strategie die Fusionsleistung verbessert und gleichzeitig die Rechenkosten senkt. Wir führen umfassende Ablationsstudien durch und erreichen state-of-the-art Ergebnisse auf mehreren audio-visuellen Klassifikationsbenchmarks, darunter Audioset, Epic-Kitchens und VGGSound. Der gesamte Code und die Modelle werden veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Aufmerksamkeits-Engpässe für multimodale Fusion | Paper | HyperAI