HyperAIHyperAI

Command Palette

Search for a command to run...

MUTAN: Multimodale Tucker-Fusion für visuelle Fragebeantwortung

Hedi Ben-younes Rémi Cadene Matthieu Cord Nicolas Thome

Zusammenfassung

Bilineare Modelle bieten einen ansprechenden Rahmen für das Mischen und Verbinden von Informationen in Aufgaben des visuellen Fragenbeantwortens (Visual Question Answering, VQA). Sie helfen, hochrangige Assoziationen zwischen der Bedeutung von Fragen und den visuellen Konzepten im Bild zu lernen, leiden jedoch unter erheblichen Dimensionalitätsproblemen. Wir stellen MUTAN vor, eine multimodale tensorbasierte Tucker-Zerlegung, die es ermöglicht, bilineare Interaktionen zwischen visuellen und textuellen Darstellungen effizient zu parametrisieren. Neben dem Tucker-Rahmen entwickeln wir eine matrixbasierte Zerlegung niedrigen Rangs, um den Interaktionsrang explizit zu beschränken. Mit MUTAN können wir die Komplexität des Verbindungsverfahrens kontrollieren, während wir gleichzeitig interpretierbare Fusionsbeziehungen beibehalten. Wir zeigen auf, wie unser MUTAN-Modell einige der neuesten VQA-Architekturen verallgemeinert und dabei Stand der Technik ergebende Resultate liefert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MUTAN: Multimodale Tucker-Fusion für visuelle Fragebeantwortung | Paper | HyperAI