HyperAIHyperAI

Command Palette

Search for a command to run...

Zeigen, Fragen, Beachten und Beantworten: Eine starke Grundlinie für visuelle Fragebeantwortung

Vahid Kazemi Ali Elqursh

Zusammenfassung

Dieses Papier präsentiert eine neue Baseline für die Aufgabe des visuellen Fragenbeantwortens. Angesichts eines Bildes und einer Frage in natürlicher Sprache erzeugt unser Modell genaue Antworten, die sich am Inhalt des Bildes orientieren. Unser Modell, das architekturtechnisch einfach gehalten ist und relativ wenige trainierbare Parameter aufweist, legt einen neuen Stand der Technik sowohl bei unbalancierten als auch balancierten VQA-Benchmarks fest. Bei der VQA 1.0 Open-Ended Challenge erreicht unser Modell ohne Verwendung zusätzlicher Daten eine Genauigkeit von 64,6 % im Test-Standard-Datensatz, was eine Verbesserung um 0,4 % gegenüber dem aktuellen Stand der Technik darstellt. Bei dem neu veröffentlichten VQA 2.0 erzielt unser Modell eine Genauigkeit von 59,7 % im Validierungsdatensatz, wodurch es die besten bisher gemeldeten Ergebnisse um 0,5 % übertrifft. Die in diesem Papier präsentierten Ergebnisse sind besonders interessant, da sehr ähnliche Modelle zuvor bereits getestet wurden, jedoch deutlich geringere Leistungen gemeldet wurden. Im Licht dieser neuen Ergebnisse hoffen wir, zukünftig mehr sinnvolle Forschung zum Thema visuelles Fragenbeantworten zu sehen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp