Command Palette
Search for a command to run...
Kann ein Agent das Web beherrschen? Erkundung der Grenzen des ChatGPT Atlas Agents in Web-Spielen
Kann ein Agent das Web beherrschen? Erkundung der Grenzen des ChatGPT Atlas Agents in Web-Spielen
Jingran Zhang Ning Li Justin Cui
Zusammenfassung
OpenAI’s ChatGPT Atlas stellt neue Fähigkeiten für die Webschnittstelle vor, die es dem Modell ermöglichen, Webseiten zu analysieren, Benutzerabsichten zu verarbeiten und Cursor- sowie Tastatureingaben direkt im Browser auszuführen. Obwohl seine Fähigkeit bei Aufgaben zur Informationsbeschaffung bereits nachgewiesen wurde, bleibt seine Leistung in dynamischen, interaktiven Umgebungen bisher weniger erforscht. In dieser Studie führen wir eine frühe Evaluation der Webschnittstellenfähigkeit von Atlas durch, wobei browserbasierte Spiele als Testszenarien dienen – darunter Google’s T-Rex Runner, Sudoku, Flappy Bird und Stein.world. Wir nutzen die in-Spiel-Leistungsergebnisse als quantitative Metriken, um die Leistung bei unterschiedlichen Aufgabentypen zu bewerten. Unsere Ergebnisse zeigen, dass Atlas bei logischen Schlussfolgerungsaufgaben wie Sudoku erheblich schneller als menschliche Baselines Rätsel löst, jedoch erhebliche Schwierigkeiten bei Echtzeit-Spielen mit präziser Timing- und Motorikanforderung hat und oft nicht über die ersten Hindernisse hinauskommt. Diese Befunde deuten darauf hin, dass Atlas zwar leistungsfähige analytische Verarbeitungsfähigkeiten demonstriert, aber in dynamischen Webumgebungen, die Echtzeit-Interaktion erfordern, erhebliche Grenzen aufweist. Die Website unseres Projekts finden Sie unter https://atlas-game-eval.github.io.