EscapeCraft: Neue Methode zur Bewertung von MLLMs bei visueller Reasoning-Aufgaben ervorgestellt.
In den letzten Jahren haben multimodale große Modelle (MLLMs) enorme Fortschritte gemacht. Sie sind in der Lage, von Bilderbeschreibungen bis hin zu Videoanalysen eine Vielzahl von Aufgaben zu bewältigen. Allerdings stellt sich die Frage, ob diese Modelle wirklich in der Lage sind, komplexe visuelle Umgebungen zu verstehen und entsprechend zu handeln. Ein Team um Professor Liu Yang vom Institut für Intelligente Industrie (AIR) der Tsinghua-Universität hat gemeinsam mit der Informatikfakultät der Tsinghua-Universität und der Fudan-Universität ein neues Werkzeug namens EscapeCraft entwickelt. Dieses 3D-Umgebungsspiel dient dazu, die Fähigkeit solcher Modelle zu bewerten, komplexe Aufgaben in einer visuellen Umgebung zu lösen. EscapeCraft ist eine 3D-Umgebung, die automatisch generiert wird und flexibel konfiguriert werden kann. Die Modelle müssen darin verschiedene Schritte ausführen, wie zum Beispiel Schlüssel finden, Kisten öffnen, Passwörter entschlüsseln und schließlich das Zimmer verlassen. Jeder dieser Schritte erfordert eine Integration von visuellen, räumlichen und logischen Informationen. Das Spiel unterstützt verschiedene Stile von Zimmern, unterschiedliche Längen und Schwierigkeitsgrade von Aufgaben, und kann auch auf andere Bereiche wie Fragen-Antworten, logisches Denken und die Rekonstruktion von Narrativen erweitert werden. Das endgültige Ziel ist es, das Zimmer zu entkommen, wobei insbesondere das Explorations- und Entscheidungsverhalten sowie die Fähigkeit, logische Pfade zu erstellen, evaluiert werden. EscapeCraft bietet einen hochflexiblen und iterierbaren Testrahmen, der für zukünftige Forschungen in den Bereichen künstliche Intelligenz, multimodales Reasoning und Reinforcement Learning nützlich sein kann. Im Gegensatz zu traditionellen Bewertungsmethoden, die nur das Endresultat betrachten, fokussiert EscapeCraft sich auf den gesamten Prozess der Aufgabenbearbeitung. Es wird untersucht, ob die Modelle autonom erkunden, ob sie sich wiederholende Fehler machen, und ob sie die richtigen Werkzeuge zur Verfügung stellen und nutzen können. Dazu wurden mehrere innovative Indikatoren entwickelt: Intent-Outcome Consistency (Konsistenz zwischen Absicht und Ergebnis): Dieser Indikator misst, ob die Interaktionen des Modells mit der Umgebung den vorgesehenen Absichten entsprechen, also ob das Modell "das Richtige an der richtigen Stelle tut". Prop Gain / Grab Ratio / GSR: Dieser Indikator charakterisiert das Verhaltensmuster des Modells während der Exploration und des Reasonings und spiegelt die Interaktionsqualität, die Effizienz des Reasonings und den Grad der Intelligenz wider. Die Evaluierungsergebnisse zeigten, dass selbst Modelle wie GPT-4o, die als Star-Modelle gelten, in vielen Fällen nur durch Zufall erfolgreich waren. Bei der Schwierigkeitsstufe 3 erreichte GPT-4o nur 26,5% der Unterziele durch "wirkliches Verstehen", während die anderen durch Zufall gelöst wurden. Zum Beispiel bemerkte das Modell eine Tür, ging jedoch ständig um die Wände herum, oder hob einen Schlüssel auf, wusste aber nicht, wie man ihn benutzt. In einem Fall wollte das Modell sogar eine Couch "greifen", da es glaubte, dass dort ein Geheimfach sein könnte. Interessanterweise konnte GPT-4o bei leichteren Schwierigkeitsstufen, wo die Hinweise näher an der Ausgangstür platziert waren, besser abschneiden. Sobald die Hinweise weiter entfernt positioniert wurden, begann das Modell, historische Pfade zu wiederholen, und konnte die Hinweise nicht korrekt interpretieren und nutzen, was zu einem Scheitern führte. Das Team hat die Fehler in zwei Kategorien unterteilt: Rechenfehler und visuelle Fehler. Bei Claude 3.5 stellten 61,1% der Fehler auf logische Unzulänglichkeiten, während 38,9% auf visuelle Probleme zurückgingen. Dies zeigt, dass das "Sehen" allein nicht ausreicht, um die Umgebung vollständig zu verstehen. Die Studie wurde von der International Conference on Computer Vision (ICCV) 2025 akzeptiert. Zu den Autoren gehören Wang Ziyue, Dong Yurui, Luo Fuwen, Ruan Minyuan, Cheng Zhili, Chen Chi, Li Peng und Professor Liu Yang, wobei Wang Ziyue und Dong Yurui als Hauptautoren fungieren. EscapeCraft bietet eine wichtige Plattform, um die Fähigkeiten von Multimodalen großen Modellen in realistischeren Szenarien zu testen. Es deckt systematische Schwächen in der visuellen Wahrnehmung und logischen Schlussfolgerung auf und hilft Dabei, die Entwicklung effektiverer Modelle voranzutreiben. Die Erkenntnisse der Studie legen nahe, dass der Fokus in der Zukunft darauf liegen sollte, die Integration und Koordination verschiedener modaler Informationen zu verbessern, um robustere und intelligentere Systeme zu schaffen.
