HyperAIHyperAI

Command Palette

Search for a command to run...

Hierarchische Frage-Bild-Ko-Aufmerksamkeit für visuelle Fragebeantwortung

Jiasen Lu* Jianwei Yang* Dhruv Batra*† Devi Parikh*†

Zusammenfassung

Einige kürzlich veröffentlichte Arbeiten haben Aufmerksamkeitsmodelle für Visual Question Answering (VQA) vorgeschlagen, die räumliche Karten generieren, um Bereiche des Bildes hervorzuheben, die für die Beantwortung der Frage relevant sind. In dieser Arbeit argumentieren wir, dass neben dem Modellieren von „wohin man schauen sollte“ oder visueller Aufmerksamkeit, das Modellieren von „welchen Wörtern man zuhören sollte“ oder Frageaufmerksamkeit gleichermaßen wichtig ist. Wir stellen ein neues Co-Aufmerksamkeitsmodell für VQA vor, das sowohl über visuelle als auch über Frageaufmerksamkeit gemeinsam nachdenkt. Darüber hinaus analysiert unser Modell die Frage (und somit auch das Bild durch den Co-Aufmerksamkeitsmechanismus) in einer hierarchischen Weise mittels neuartiger eindimensionaler Faltungsneuronaler Netze (CNN). Unser Modell verbessert den Stand der Technik im VQA-Datensatz von 60,3 % auf 60,5 % und im COCO-QA-Datensatz von 61,6 % auf 63,3 %. Durch die Verwendung von ResNet wird die Leistung weiter erhöht: auf 62,1 % für VQA und 65,4 % für COCO-QA.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Hierarchische Frage-Bild-Ko-Aufmerksamkeit für visuelle Fragebeantwortung | Paper | HyperAI