vor 2 Monaten

MUTAN: Multimodale Tucker-Fusion für visuelle Fragebeantwortung

Hedi Ben-younes; Rémi Cadene; Matthieu Cord; Nicolas Thome

Abstract

Bilineare Modelle bieten einen ansprechenden Rahmen für das Mischen und Verbinden von Informationen in Aufgaben des visuellen Fragenbeantwortens (Visual Question Answering, VQA). Sie helfen, hochrangige Assoziationen zwischen der Bedeutung von Fragen und den visuellen Konzepten im Bild zu lernen, leiden jedoch unter erheblichen Dimensionalitätsproblemen. Wir stellen MUTAN vor, eine multimodale tensorbasierte Tucker-Zerlegung, die es ermöglicht, bilineare Interaktionen zwischen visuellen und textuellen Darstellungen effizient zu parametrisieren. Neben dem Tucker-Rahmen entwickeln wir eine matrixbasierte Zerlegung niedrigen Rangs, um den Interaktionsrang explizit zu beschränken. Mit MUTAN können wir die Komplexität des Verbindungsverfahrens kontrollieren, während wir gleichzeitig interpretierbare Fusionsbeziehungen beibehalten. Wir zeigen auf, wie unser MUTAN-Modell einige der neuesten VQA-Architekturen verallgemeinert und dabei Stand der Technik ergebende Resultate liefert.