Multimodales kompaktes bilineares Pooling für visuelle Fragebeantwortung und visuelle Verortung

Die Modellierung textueller oder visueller Informationen mit vektoriellen Darstellungen, die aus großen Sprach- oder Bild-Datensätzen trainiert wurden, wurde in den letzten Jahren erfolgreich erforscht. Allerdings erfordern Aufgaben wie das visuelle Fragenbeantworten (Visual Question Answering), dass diese Vektordarstellungen miteinander kombiniert werden. Ansätze zur multimodalen Pooling umfassen das elementweise Produkt oder die Summe sowie die Konkatenation der visuellen und textuellen Darstellungen. Wir vermuten, dass diese Methoden nicht so ausdrucksstark sind wie ein äußeres Produkt der visuellen und textuellen Vektoren. Da das äußere Produkt aufgrund seiner hohen Dimensionalität in der Regel nicht praktikabel ist, schlagen wir stattdessen die Verwendung von Multimodal Compact Bilinear Pooling (MCB) vor, um multimodale Merkmale effizient und ausdrucksstark zu kombinieren. Wir evaluieren MCB ausführlich anhand der Aufgaben des visuellen Fragenbeantwortens und des Groundings. Wir zeigen konsistent den Nutzen von MCB im Vergleich zu Varianten ohne MCB. Für das visuelle Fragenbeantworten präsentieren wir eine Architektur, die MCB zweimal verwendet: einmal zur Vorhersage der Aufmerksamkeit über räumliche Merkmale und ein weiteres Mal zur Kombination der aufmerksamkeitsbasierten Darstellung mit der Frage-Darstellung. Dieses Modell übertrifft den aktuellen Stand der Technik auf dem Visual7W-Datensatz und bei der VQA-Herausforderung.