HyperAIHyperAI

Command Palette

Search for a command to run...

MUREL: Multimodales Relationales Reasoning für Visuelle Fragebeantwortung

Remi Cadene; Hedi Ben-younes; Matthieu Cord; Nicolas Thome

Zusammenfassung

Multimodale Aufmerksamkeitsnetzwerke sind derzeit die fortschrittlichsten Modelle für Visual Question Answering (VQA)-Aufgaben, die reale Bilder betreffen. Obwohl Aufmerksamkeit es ermöglicht, sich auf den dem Fragestellung relevanten visuellen Inhalt zu konzentrieren, ist dieses einfache Mechanismus möglicherweise nicht ausreichend, um die komplexen Schlussfolgerungseigenschaften zu modellieren, die für VQA oder andere hochwertige Aufgaben erforderlich sind.In dieser Arbeit schlagen wir MuRel vor, ein multimodales Relationales Netzwerk, das von Anfang bis Ende gelernt wird, um über reale Bilder zu schlussfolgern. Unser erster Beitrag besteht in der Einführung der MuRel-Zelle, einer atomaren Schlussfolgerungsgrundlage, die durch eine reichhaltige vektorielle Darstellung Interaktionen zwischen Frage und Bildbereichen repräsentiert und Regionenbeziehungen durch paarweise Kombinationen modelliert. Zweitens integrieren wir die Zelle in ein vollständiges MuRel-Netzwerk, das visuelle und fragebezogene Interaktionen schrittweise verfeinert und zur Definition von Visualisierungsschemata genutzt werden kann, die detaillierter sind als einfache Aufmerksamkeitskarten.Wir bestätigen die Relevanz unseres Ansatzes durch verschiedene Abschweifungsstudien (Ablation Studies) und zeigen seine Überlegenheit gegenüber aufmerksamkeitsbasierten Methoden auf drei Datensätzen: VQA 2.0, VQA-CP v2 und TDIUC. Unser endgültiges MuRel-Netzwerk ist in diesem anspruchsvollen Kontext wettbewerbsfähig oder übertrifft die aktuellen besten Ergebnisse.Unser Code ist verfügbar: https://github.com/Cadene/murel.bootstrap.pytorch


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp