HyperAIHyperAI

Command Palette

Search for a command to run...

Fragen, beachten und beantworten: Die Erforschung von fragegeleiteter räumlicher Aufmerksamkeit für visuelle Fragebeantwortung

Huijuan Xu Kate Saenko

Zusammenfassung

Wir behandeln das Problem des visuellen Fragenbeantwortens (VQA), das eine gemeinsame Verarbeitung von Bildern und Sprache erfordert, um eine Frage zu einem gegebenen Foto zu beantworten. Kürzliche Ansätze haben tiefgreifende Methoden der Bildunterschriftenerstellung basierend auf konvolutionellen-rekurrenten Netzen auf dieses Problem angewendet, sind aber bei der Modellierung räumlicher Inferenz gescheitert. Um dies zu beheben, schlagen wir ein Modell vor, das wir als Räumliches Gedächtnisnetz (Spatial Memory Network) bezeichnen, und wenden es auf die VQA-Aufgabe an. Gedächtnisnetze sind rekurrente Neuronale Netze mit einer expliziten Aufmerksamkeitsmechanismus, der bestimmte Teile der in dem Gedächtnis gespeicherten Informationen auswählt. Unser Räumliches Gedächtnisnetz speichert die Aktivierungen von Neuronen aus verschiedenen räumlichen Bereichen des Bildes in seinem Gedächtnis und verwendet die Frage, um relevante Bereiche für die Antwortberechnung auszuwählen. Dieser Prozess stellt einen einzelnen "Sprung" (hop) im Netz dar. Wir schlagen eine neuartige räumliche Aufmerksamkeitsarchitektur vor, die Wörter mit Bildabschnitten im ersten Sprung ausrichtet, und erzielen verbesserte Ergebnisse durch Hinzufügen eines zweiten Aufmerksamkeitssprungs, der die gesamte Frage berücksichtigt, um visuelle Beweise basierend auf den Ergebnissen des ersten Sprungs auszuwählen. Um den vom Netzwerk gelernten Inferenzprozess besser zu verstehen, entwerfen wir synthetische Fragen, die speziell räumliche Inferenz erfordern, und visualisieren die Aufmerksamkeitsgewichte. Wir bewerten unser Modell anhand zweier veröffentlichter Datensätze für visuelle Fragenbeantwortung, DAQUAR [1] und VQA [2], und erhalten verbesserte Ergebnisse im Vergleich zu einem starken tiefgreifenden Baselinemodell (iBOWIMG), das Bild- und Fragefeatures verbindet, um die Antwort vorherzusagen [3].


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp