HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodales kompaktes bilineares Pooling für visuelle Fragebeantwortung und visuelle Verortung

Akira Fukui*1,2 Dong Huk Park*1 Daylen Yang*1 Anna Rohrbach*1,3 Trevor Darrell1 Marcus Rohrbach1

Zusammenfassung

Die Modellierung textueller oder visueller Informationen mit vektoriellen Darstellungen, die aus großen Sprach- oder Bild-Datensätzen trainiert wurden, wurde in den letzten Jahren erfolgreich erforscht. Allerdings erfordern Aufgaben wie das visuelle Fragenbeantworten (Visual Question Answering), dass diese Vektordarstellungen miteinander kombiniert werden. Ansätze zur multimodalen Pooling umfassen das elementweise Produkt oder die Summe sowie die Konkatenation der visuellen und textuellen Darstellungen. Wir vermuten, dass diese Methoden nicht so ausdrucksstark sind wie ein äußeres Produkt der visuellen und textuellen Vektoren. Da das äußere Produkt aufgrund seiner hohen Dimensionalität in der Regel nicht praktikabel ist, schlagen wir stattdessen die Verwendung von Multimodal Compact Bilinear Pooling (MCB) vor, um multimodale Merkmale effizient und ausdrucksstark zu kombinieren. Wir evaluieren MCB ausführlich anhand der Aufgaben des visuellen Fragenbeantwortens und des Groundings. Wir zeigen konsistent den Nutzen von MCB im Vergleich zu Varianten ohne MCB. Für das visuelle Fragenbeantworten präsentieren wir eine Architektur, die MCB zweimal verwendet: einmal zur Vorhersage der Aufmerksamkeit über räumliche Merkmale und ein weiteres Mal zur Kombination der aufmerksamkeitsbasierten Darstellung mit der Frage-Darstellung. Dieses Modell übertrifft den aktuellen Stand der Technik auf dem Visual7W-Datensatz und bei der VQA-Herausforderung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp