Aufmerksamkeits-Engpässe für multimodale Fusion

Menschen wahrnehmen die Welt durch die gleichzeitige Verarbeitung und Fusion hochdimensionaler Eingaben aus mehreren Modalitäten wie Vision und Audio. Im Gegensatz dazu sind maschinelle Wahrnehmungsmodelle typischerweise modality-spezifisch und auf einmodale Benchmark-Aufgaben optimiert, weshalb die späte Fusion finaler Darstellungen oder Vorhersagen aus jeder Modality – sogenannte „Late Fusion“ – weiterhin eine dominierende Herangehensweise für multimodale Video-Klassifikation darstellt. Stattdessen stellen wir eine neuartige Transformer-basierte Architektur vor, die sogenannte „Fusion Bottlenecks“ zur Modalitätsfusion auf mehreren Schichten nutzt. Im Vergleich zu traditionellen Paarweisen Self-Attention erzwingt unser Modell, dass Informationen zwischen verschiedenen Modalitäten durch eine geringe Anzahl von Bottleneck-Latenten fließen müssen, wodurch das Modell gezwungen wird, die relevantesten Informationen jeder Modality zu kollationieren und zu verdichten und lediglich das Notwendige zu teilen. Wir stellen fest, dass diese Strategie die Fusionsleistung verbessert und gleichzeitig die Rechenkosten senkt. Wir führen umfassende Ablationsstudien durch und erreichen state-of-the-art Ergebnisse auf mehreren audio-visuellen Klassifikationsbenchmarks, darunter Audioset, Epic-Kitchens und VGGSound. Der gesamte Code und die Modelle werden veröffentlicht.