Command Palette
Search for a command to run...
Peut un agent maîtriser le web ? Exploration des frontières de l'agent ChatGPT Atlas dans les jeux web
Peut un agent maîtriser le web ? Exploration des frontières de l'agent ChatGPT Atlas dans les jeux web
Jingran Zhang Ning Li Justin Cui
Résumé
OpenAI a présenté ChatGPT Atlas, une nouvelle version dotée de capacités renforcées d’interaction web, permettant au modèle d’analyser des pages web, de comprendre les intentions des utilisateurs, et d’effectuer des actions de souris et de frappe clavier directement dans le navigateur. Bien que sa capacité à effectuer des tâches de recherche d’information ait été démontrée, son efficacité dans des environnements dynamiques et interactifs reste encore peu explorée. Dans cette étude, nous menons une évaluation préliminaire des capacités d’interaction web d’Atlas en utilisant des jeux basés navigateur comme scénarios d’évaluation, notamment T-Rex Runner de Google, le Sudoku, Flappy Bird et Stein.world. Nous utilisons les scores obtenus dans les jeux comme métriques quantitatives pour évaluer les performances sur différents types de tâches. Nos résultats montrent qu’Atlas se distingue dans les tâches exigeant un raisonnement logique, comme le Sudoku, où il résout les grilles significativement plus vite que les performances humaines de référence, mais peine fortement dans les jeux en temps réel nécessitant une synchronisation précise et un contrôle moteur, échouant fréquemment à dépasser les premiers obstacles. Ces observations suggèrent qu’alors qu’Atlas démontre une capacité d’analyse avancée, des limites notables subsistent dans les environnements web dynamiques exigeant une interaction en temps réel. Le site web de notre projet est accessible à l’adresse suivante : https://atlas-game-eval.github.io.