HyperAIHyperAI
vor 18 Tagen

REBUS: Ein robuster Evaluationsbenchmark für das Verständnis von Symbolen

{Michelle Hung, Lydia La Roux, Jonathan Chiang, Joe Cavanagh, Irina Gritsevskaya, Hans Gundlach, Derik Kauffman, Aaron Kirtland, Arjun Panickssery, Andrew Gritsevskiy}
REBUS: Ein robuster Evaluationsbenchmark für das Verständnis von Symbolen
Abstract

Wir stellen einen neuen Benchmark vor, der die Leistung multimodaler großer Sprachmodelle bei der Lösung von Rebusrätseln evaluiert. Der Datensatz umfasst 333 originale Beispiele basierend auf Bildern, die 13 Kategorien andeuten, darunter Filme, Komponisten, Großstädte und Lebensmittel. Um eine gute Leistung bei der Identifizierung des gesuchten Wortes oder Ausdrucks zu erzielen, müssen Modelle Bilderkennung, Zeichenkettenmanipulation sowie Hypothesentest, mehrschrittige Schlussfolgerung und ein Verständnis menschlicher Kognition kombinieren, was eine komplexe, multimodale Bewertung ihrer Fähigkeiten ermöglicht. Wir stellen fest, dass GPT-4o alle anderen Modelle deutlich übertrifft, gefolgt von proprietären Modellen, die alle anderen untersuchten Modelle schlagen. Dennoch erreicht selbst das beste Modell nur eine Genauigkeit von 42 %, die auf schwierige Rätsel hinabfällt auf lediglich 7 %, was die dringende Notwendigkeit erheblicher Verbesserungen im Schlussfolgern unterstreicht. Zudem verstehen die Modelle selten alle Teile eines Rätsels und sind nahezu stets unfähig, die korrekte Lösung rückwirkend zu erklären. Der vorgestellte Benchmark kann daher gezielt zur Identifizierung gravierender Mängel im Wissen und im Schlussfolgern multimodaler großer Sprachmodelle eingesetzt werden.