vor 7 Monaten

Zusammenfassung

Wir stellen GQA vor, ein neues Datensatz für realweltliches visuelles Schließen und kompositionales Fragenbeantworten, der die wesentlichen Mängel früherer VQA-Datensätze (Visual Question Answering) beheben soll. Wir haben eine leistungsfähige und robuste Fragegenerierungs-Engine entwickelt, die sich auf Szenengraphstrukturen stützt, um 22 Millionen verschiedene Schließfragen zu erstellen. Jede dieser Fragen wird durch funktionale Programme begleitet, die ihre Semantik repräsentieren. Diese Programme ermöglichen es uns, die Antwortverteilung eng zu kontrollieren und eine neue einstellbare Glättungstechnik zur Milderung von Frageverzerrungen vorzustellen. Dem Datensatz sind eine Reihe neuer Metriken zugeordnet, die wesentliche Qualitäten wie Konsistenz, Verankerung und Plausibilität bewerten. Eine umfassende Analyse wurde sowohl für Baseline-Modelle als auch für state-of-the-art-Modelle durchgeführt, wobei detaillierte Ergebnisse für verschiedene Fragetypen und Topologien präsentiert werden. Während ein blinder LSTM lediglich 42,1 % erreicht und starke VQA-Modelle 54,1 % erzielen, liegt die menschliche Leistung bei 89,3 %. Dies bietet zahlreiche Möglichkeiten für neue Forschungen im Bereich des Explorierens. Wir hoffen sehr, dass GQA eine fördernde Ressource für die nächste Generation von Modellen sein wird, die erhöhte Robustheit, verbesserte Konsistenz und tiefere semantische Verständnisse für Bilder und Sprache bieten.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Visuelle Fragebeantwortung

Drew A. Hudson Christopher D. Manning

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Visuelle Fragebeantwortung

Drew A. Hudson Christopher D. Manning

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

GQA: Ein neuer Datensatz für realweltliches visuelles Schließen und kompositionales Fragenbeantworten

Drew A. Hudson Christopher D. Manning

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

GQA: Ein neuer Datensatz für realweltliches visuelles Schließen und kompositionales Fragenbeantworten

Drew A. Hudson Christopher D. Manning

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

GQA: Ein neuer Datensatz für realweltliches visuelles Schließen und kompositionales Fragenbeantworten

Drew A. Hudson Christopher D. Manning

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters