HyperAIHyperAI

Command Palette

Search for a command to run...

Kann ein Agent das Web beherrschen? Erkundung der Grenzen des ChatGPT Atlas Agents in Web-Spielen

Jingran Zhang Ning Li Justin Cui

Zusammenfassung

OpenAI’s ChatGPT Atlas stellt neue Fähigkeiten für die Webschnittstelle vor, die es dem Modell ermöglichen, Webseiten zu analysieren, Benutzerabsichten zu verarbeiten und Cursor- sowie Tastatureingaben direkt im Browser auszuführen. Obwohl seine Fähigkeit bei Aufgaben zur Informationsbeschaffung bereits nachgewiesen wurde, bleibt seine Leistung in dynamischen, interaktiven Umgebungen bisher weniger erforscht. In dieser Studie führen wir eine frühe Evaluation der Webschnittstellenfähigkeit von Atlas durch, wobei browserbasierte Spiele als Testszenarien dienen – darunter Google’s T-Rex Runner, Sudoku, Flappy Bird und Stein.world. Wir nutzen die in-Spiel-Leistungsergebnisse als quantitative Metriken, um die Leistung bei unterschiedlichen Aufgabentypen zu bewerten. Unsere Ergebnisse zeigen, dass Atlas bei logischen Schlussfolgerungsaufgaben wie Sudoku erheblich schneller als menschliche Baselines Rätsel löst, jedoch erhebliche Schwierigkeiten bei Echtzeit-Spielen mit präziser Timing- und Motorikanforderung hat und oft nicht über die ersten Hindernisse hinauskommt. Diese Befunde deuten darauf hin, dass Atlas zwar leistungsfähige analytische Verarbeitungsfähigkeiten demonstriert, aber in dynamischen Webumgebungen, die Echtzeit-Interaktion erfordern, erhebliche Grenzen aufweist. Die Website unseres Projekts finden Sie unter https://atlas-game-eval.github.io.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Kann ein Agent das Web beherrschen? Erkundung der Grenzen des ChatGPT Atlas Agents in Web-Spielen | Paper | HyperAI