IllusionVQA: Ein anspruchsvolles optisches Täuschungs-Datensatz für Vision-Language-Modelle

Der Aufstieg von Vision-Language-Modellen (VLM) hat es Forschern ermöglicht, das visuelle Verständnis eines neuronalen Netzwerks mithilfe natürlicher Sprache zu untersuchen. Neben der Objektklassifikation und -erkennung sind VLMs in der Lage, visuelle Inhalte zu verstehen und alltagslogische Schlussfolgerungen zu ziehen. Dies führt naturgemäß zur Frage: Wie reagieren VLMs auf Bilder, die intrinsisch unwahrscheinlich oder widersprüchlich sind? Um dieser Frage nachzugehen, präsentieren wir IllusionVQA: eine vielfältige Datensammlung herausfordernder optischer Täuschungen und schwer interpretierbarer Szenen, die zur Bewertung der Fähigkeiten von VLMs in zwei unterschiedlichen Multiple-Choice-VQA-Aufgaben – Verständnis und weiche Lokalisierung – dienen. GPT4V, das leistungsstärkste VLM, erreicht bei der Verständnisaufgabe eine Genauigkeit von 62,99 % (4-Shot) und bei der Lokalisierungsaufgabe 49,7 % (4-Shot und Chain-of-Thought). Eine menschliche Evaluierung zeigt, dass Menschen eine Genauigkeit von 91,03 % bei der Verständnisaufgabe und 100 % bei der Lokalisierung erreichen. Wir stellen fest, dass In-Context-Learning (ICL) und Chain-of-Thought-Reasoning die Leistung von Gemini-Pro bei der Lokalisierungsaufgabe erheblich beeinträchtigen. Zudem entdecken wir eine potenzielle Schwäche der ICL-Fähigkeiten von VLMs: Selbst wenn die korrekte Antwort als Few-Shot-Beispiel im Kontextfenster enthalten ist, gelingt es den Modellen nicht, optische Täuschungen zu identifizieren.