HyperAIHyperAI
vor 2 Monaten

GQA: Ein neuer Datensatz für realweltliches visuelles Schließen und kompositionales Fragenbeantworten

Drew A. Hudson; Christopher D. Manning
GQA: Ein neuer Datensatz für realweltliches visuelles Schließen und kompositionales Fragenbeantworten
Abstract

Wir stellen GQA vor, ein neues Datensatz für realweltliches visuelles Schließen und kompositionales Fragenbeantworten, der die wesentlichen Mängel früherer VQA-Datensätze (Visual Question Answering) beheben soll. Wir haben eine leistungsfähige und robuste Fragegenerierungs-Engine entwickelt, die sich auf Szenengraphstrukturen stützt, um 22 Millionen verschiedene Schließfragen zu erstellen. Jede dieser Fragen wird durch funktionale Programme begleitet, die ihre Semantik repräsentieren. Diese Programme ermöglichen es uns, die Antwortverteilung eng zu kontrollieren und eine neue einstellbare Glättungstechnik zur Milderung von Frageverzerrungen vorzustellen. Dem Datensatz sind eine Reihe neuer Metriken zugeordnet, die wesentliche Qualitäten wie Konsistenz, Verankerung und Plausibilität bewerten. Eine umfassende Analyse wurde sowohl für Baseline-Modelle als auch für state-of-the-art-Modelle durchgeführt, wobei detaillierte Ergebnisse für verschiedene Fragetypen und Topologien präsentiert werden. Während ein blinder LSTM lediglich 42,1 % erreicht und starke VQA-Modelle 54,1 % erzielen, liegt die menschliche Leistung bei 89,3 %. Dies bietet zahlreiche Möglichkeiten für neue Forschungen im Bereich des Explorierens. Wir hoffen sehr, dass GQA eine fördernde Ressource für die nächste Generation von Modellen sein wird, die erhöhte Robustheit, verbesserte Konsistenz und tiefere semantische Verständnisse für Bilder und Sprache bieten.