vor 2 Monaten

MUREL: Multimodales Relationales Reasoning für Visuelle Fragebeantwortung

Remi Cadene; Hedi Ben-younes; Matthieu Cord; Nicolas Thome

Abstract

Multimodale Aufmerksamkeitsnetzwerke sind derzeit die fortschrittlichsten Modelle für Visual Question Answering (VQA)-Aufgaben, die reale Bilder betreffen. Obwohl Aufmerksamkeit es ermöglicht, sich auf den dem Fragestellung relevanten visuellen Inhalt zu konzentrieren, ist dieses einfache Mechanismus möglicherweise nicht ausreichend, um die komplexen Schlussfolgerungseigenschaften zu modellieren, die für VQA oder andere hochwertige Aufgaben erforderlich sind.In dieser Arbeit schlagen wir MuRel vor, ein multimodales Relationales Netzwerk, das von Anfang bis Ende gelernt wird, um über reale Bilder zu schlussfolgern. Unser erster Beitrag besteht in der Einführung der MuRel-Zelle, einer atomaren Schlussfolgerungsgrundlage, die durch eine reichhaltige vektorielle Darstellung Interaktionen zwischen Frage und Bildbereichen repräsentiert und Regionenbeziehungen durch paarweise Kombinationen modelliert. Zweitens integrieren wir die Zelle in ein vollständiges MuRel-Netzwerk, das visuelle und fragebezogene Interaktionen schrittweise verfeinert und zur Definition von Visualisierungsschemata genutzt werden kann, die detaillierter sind als einfache Aufmerksamkeitskarten.Wir bestätigen die Relevanz unseres Ansatzes durch verschiedene Abschweifungsstudien (Ablation Studies) und zeigen seine Überlegenheit gegenüber aufmerksamkeitsbasierten Methoden auf drei Datensätzen: VQA 2.0, VQA-CP v2 und TDIUC. Unser endgültiges MuRel-Netzwerk ist in diesem anspruchsvollen Kontext wettbewerbsfähig oder übertrifft die aktuellen besten Ergebnisse.Unser Code ist verfügbar: https://github.com/Cadene/murel.bootstrap.pytorch