Dynamische multimodale Fusion

In den letzten Jahren hat die tiefe multimodale Lernmethodik erhebliche Fortschritte erzielt. Allerdings sind die derzeitigen Fusionsansätze naturgemäß statisch, d. h., sie verarbeiten und fusionieren multimodale Eingaben mit identischem Rechenaufwand, ohne die unterschiedlichen computationellen Anforderungen verschiedener multimodaler Daten zu berücksichtigen. In dieser Arbeit präsentieren wir dynamische multimodale Fusionsmethoden (DynMM), einen neuen Ansatz, der multimodale Daten adaptiv fusioniert und während der Inferenz datenabhängige Forward-Pfade generiert. Dazu schlagen wir eine Gating-Funktion vor, die basierend auf multimodalen Merkmalen in Echtzeit Entscheidungen auf Modaltitäts- oder Fusions-Ebene trifft, sowie eine ressourcensensible Verlustfunktion, die die rechnerische Effizienz fördert. Ergebnisse auf verschiedenen multimodalen Aufgaben belegen die Effizienz und breite Anwendbarkeit unseres Ansatzes. So kann DynMM beispielsweise die Rechenkosten um 46,5 % reduzieren, ohne dabei eine vernachlässigbare Genauigkeitsminderung hinzunehmen (CMU-MOSEI Sentiment-Analyse), und die Segmentierungsleistung bei über 21 % eingesparter Rechenleistung verbessern (NYU Depth V2 semantische Segmentierung), verglichen mit statischen Fusionsansätzen. Wir sind überzeugt, dass unser Ansatz eine neue Richtung für die dynamische Gestaltung multimodaler Netze eröffnet und breite Anwendungsmöglichkeiten für eine Vielzahl multimodaler Aufgaben eröffnet.