Command Palette
Search for a command to run...
MUTAN: Multimodale Tucker-Fusion für visuelle Fragebeantwortung
MUTAN: Multimodale Tucker-Fusion für visuelle Fragebeantwortung
Hedi Ben-younes Rémi Cadene Matthieu Cord Nicolas Thome
Zusammenfassung
Bilineare Modelle bieten einen ansprechenden Rahmen für das Mischen und Verbinden von Informationen in Aufgaben des visuellen Fragenbeantwortens (Visual Question Answering, VQA). Sie helfen, hochrangige Assoziationen zwischen der Bedeutung von Fragen und den visuellen Konzepten im Bild zu lernen, leiden jedoch unter erheblichen Dimensionalitätsproblemen. Wir stellen MUTAN vor, eine multimodale tensorbasierte Tucker-Zerlegung, die es ermöglicht, bilineare Interaktionen zwischen visuellen und textuellen Darstellungen effizient zu parametrisieren. Neben dem Tucker-Rahmen entwickeln wir eine matrixbasierte Zerlegung niedrigen Rangs, um den Interaktionsrang explizit zu beschränken. Mit MUTAN können wir die Komplexität des Verbindungsverfahrens kontrollieren, während wir gleichzeitig interpretierbare Fusionsbeziehungen beibehalten. Wir zeigen auf, wie unser MUTAN-Modell einige der neuesten VQA-Architekturen verallgemeinert und dabei Stand der Technik ergebende Resultate liefert.