HyperAIHyperAI

Command Palette

Search for a command to run...

GQA: Ein neuer Datensatz für realweltliches visuelles Schließen und kompositionales Fragenbeantworten

Drew A. Hudson Christopher D. Manning

Zusammenfassung

Wir stellen GQA vor, ein neues Datensatz für realweltliches visuelles Schließen und kompositionales Fragenbeantworten, der die wesentlichen Mängel früherer VQA-Datensätze (Visual Question Answering) beheben soll. Wir haben eine leistungsfähige und robuste Fragegenerierungs-Engine entwickelt, die sich auf Szenengraphstrukturen stützt, um 22 Millionen verschiedene Schließfragen zu erstellen. Jede dieser Fragen wird durch funktionale Programme begleitet, die ihre Semantik repräsentieren. Diese Programme ermöglichen es uns, die Antwortverteilung eng zu kontrollieren und eine neue einstellbare Glättungstechnik zur Milderung von Frageverzerrungen vorzustellen. Dem Datensatz sind eine Reihe neuer Metriken zugeordnet, die wesentliche Qualitäten wie Konsistenz, Verankerung und Plausibilität bewerten. Eine umfassende Analyse wurde sowohl für Baseline-Modelle als auch für state-of-the-art-Modelle durchgeführt, wobei detaillierte Ergebnisse für verschiedene Fragetypen und Topologien präsentiert werden. Während ein blinder LSTM lediglich 42,1 % erreicht und starke VQA-Modelle 54,1 % erzielen, liegt die menschliche Leistung bei 89,3 %. Dies bietet zahlreiche Möglichkeiten für neue Forschungen im Bereich des Explorierens. Wir hoffen sehr, dass GQA eine fördernde Ressource für die nächste Generation von Modellen sein wird, die erhöhte Robustheit, verbesserte Konsistenz und tiefere semantische Verständnisse für Bilder und Sprache bieten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
GQA: Ein neuer Datensatz für realweltliches visuelles Schließen und kompositionales Fragenbeantworten | Paper | HyperAI