HyperAIHyperAI

Command Palette

Search for a command to run...

IllusionVQA: Ein anspruchsvolles optisches Täuschungs-Datensatz für Vision-Language-Modelle

Haz Sameen Shahgir Khondker Salman Sayeed Abhik Bhattacharjee Wasi Uddin Ahmad Yue Dong Rifat Shahriyar

Zusammenfassung

Der Aufstieg von Vision-Language-Modellen (VLM) hat es Forschern ermöglicht, das visuelle Verständnis eines neuronalen Netzwerks mithilfe natürlicher Sprache zu untersuchen. Neben der Objektklassifikation und -erkennung sind VLMs in der Lage, visuelle Inhalte zu verstehen und alltagslogische Schlussfolgerungen zu ziehen. Dies führt naturgemäß zur Frage: Wie reagieren VLMs auf Bilder, die intrinsisch unwahrscheinlich oder widersprüchlich sind? Um dieser Frage nachzugehen, präsentieren wir IllusionVQA: eine vielfältige Datensammlung herausfordernder optischer Täuschungen und schwer interpretierbarer Szenen, die zur Bewertung der Fähigkeiten von VLMs in zwei unterschiedlichen Multiple-Choice-VQA-Aufgaben – Verständnis und weiche Lokalisierung – dienen. GPT4V, das leistungsstärkste VLM, erreicht bei der Verständnisaufgabe eine Genauigkeit von 62,99 % (4-Shot) und bei der Lokalisierungsaufgabe 49,7 % (4-Shot und Chain-of-Thought). Eine menschliche Evaluierung zeigt, dass Menschen eine Genauigkeit von 91,03 % bei der Verständnisaufgabe und 100 % bei der Lokalisierung erreichen. Wir stellen fest, dass In-Context-Learning (ICL) und Chain-of-Thought-Reasoning die Leistung von Gemini-Pro bei der Lokalisierungsaufgabe erheblich beeinträchtigen. Zudem entdecken wir eine potenzielle Schwäche der ICL-Fähigkeiten von VLMs: Selbst wenn die korrekte Antwort als Few-Shot-Beispiel im Kontextfenster enthalten ist, gelingt es den Modellen nicht, optische Täuschungen zu identifizieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
IllusionVQA: Ein anspruchsvolles optisches Täuschungs-Datensatz für Vision-Language-Modelle | Paper | HyperAI