Sind Sprachmodelle Rätselgenies? Algorithmische Rätsel bringen ernsthafte Herausforderungen im multimodalen Schlussfolgern ans Licht

Diese Arbeit stellt die neuartige Aufgabe des multimodalen Puzzles lösenden innerhalb des Kontexts der visuellen Frage-Antwort-Aufgabenstellung vor. Wir präsentieren ein neues Datenset, AlgoPuzzleVQA, das darauf abzielt, die Fähigkeiten multimodaler Sprachmodelle beim Lösen algorithmischer Rätsel zu testen und zu bewerten, die sowohl visuelles Verständnis, sprachliches Verständnis als auch komplexe algorithmische Schlussfolgerungen erfordern. Die Rätsel wurden so gestaltet, dass sie eine vielfältige Palette mathematischer und algorithmischer Themen abdecken, wie beispielsweise Boolesche Logik, Kombinatorik, Graphentheorie, Optimierung, Suche usw., mit dem Ziel, die Lücke zwischen der Interpretation visueller Daten und den Fähigkeiten im algorithmischen Problemlösen zu bewerten. Das Datenset wird automatisch aus von Menschen geschriebenem Code generiert. Alle unsere Rätsel besitzen exakte Lösungen, die direkt aus dem Algorithmus abgeleitet werden können, ohne mühsame menschliche Berechnungen. Dadurch kann unser Datenset beliebig in Bezug auf die Komplexität des Schlussfolgerns und die Datensatzgröße skaliert werden. Unsere Untersuchung zeigt, dass große Sprachmodelle (LLMs), wie GPT4V und Gemini, bei der Lösung dieser Rätsel nur begrenzte Leistung erbringen. Wir stellen fest, dass ihre Leistung in einer mehrfach auswählbaren Frage-Antwort-Aufgabenstellung für eine signifikante Anzahl von Rätseln nahe bei zufälliger Wahl liegt. Diese Ergebnisse unterstreichen die Herausforderungen, visuelles, sprachliches und algorithmisches Wissen effektiv zu integrieren, um komplexe Schlussfolgerungsprobleme zu lösen.