HyperAIHyperAI
vor 2 Monaten

Hierarchische Frage-Bild-Ko-Aufmerksamkeit für visuelle Fragebeantwortung

Jiasen Lu; Jianwei Yang; Dhruv Batra; Devi Parikh
Hierarchische Frage-Bild-Ko-Aufmerksamkeit für visuelle Fragebeantwortung
Abstract

Einige kürzlich veröffentlichte Arbeiten haben Aufmerksamkeitsmodelle für Visual Question Answering (VQA) vorgeschlagen, die räumliche Karten generieren, um Bereiche des Bildes hervorzuheben, die für die Beantwortung der Frage relevant sind. In dieser Arbeit argumentieren wir, dass neben dem Modellieren von „wohin man schauen sollte“ oder visueller Aufmerksamkeit, das Modellieren von „welchen Wörtern man zuhören sollte“ oder Frageaufmerksamkeit gleichermaßen wichtig ist. Wir stellen ein neues Co-Aufmerksamkeitsmodell für VQA vor, das sowohl über visuelle als auch über Frageaufmerksamkeit gemeinsam nachdenkt. Darüber hinaus analysiert unser Modell die Frage (und somit auch das Bild durch den Co-Aufmerksamkeitsmechanismus) in einer hierarchischen Weise mittels neuartiger eindimensionaler Faltungsneuronaler Netze (CNN). Unser Modell verbessert den Stand der Technik im VQA-Datensatz von 60,3 % auf 60,5 % und im COCO-QA-Datensatz von 61,6 % auf 63,3 %. Durch die Verwendung von ResNet wird die Leistung weiter erhöht: auf 62,1 % für VQA und 65,4 % für COCO-QA.

Hierarchische Frage-Bild-Ko-Aufmerksamkeit für visuelle Fragebeantwortung | Neueste Forschungsarbeiten | HyperAI