HyperAIHyperAI

Command Palette

Search for a command to run...

Peut un agent maîtriser le web ? Exploration des frontières de l'agent ChatGPT Atlas dans les jeux web

Jingran Zhang Ning Li Justin Cui

Résumé

OpenAI a présenté ChatGPT Atlas, une nouvelle version dotée de capacités renforcées d’interaction web, permettant au modèle d’analyser des pages web, de comprendre les intentions des utilisateurs, et d’effectuer des actions de souris et de frappe clavier directement dans le navigateur. Bien que sa capacité à effectuer des tâches de recherche d’information ait été démontrée, son efficacité dans des environnements dynamiques et interactifs reste encore peu explorée. Dans cette étude, nous menons une évaluation préliminaire des capacités d’interaction web d’Atlas en utilisant des jeux basés navigateur comme scénarios d’évaluation, notamment T-Rex Runner de Google, le Sudoku, Flappy Bird et Stein.world. Nous utilisons les scores obtenus dans les jeux comme métriques quantitatives pour évaluer les performances sur différents types de tâches. Nos résultats montrent qu’Atlas se distingue dans les tâches exigeant un raisonnement logique, comme le Sudoku, où il résout les grilles significativement plus vite que les performances humaines de référence, mais peine fortement dans les jeux en temps réel nécessitant une synchronisation précise et un contrôle moteur, échouant fréquemment à dépasser les premiers obstacles. Ces observations suggèrent qu’alors qu’Atlas démontre une capacité d’analyse avancée, des limites notables subsistent dans les environnements web dynamiques exigeant une interaction en temps réel. Le site web de notre projet est accessible à l’adresse suivante : https://atlas-game-eval.github.io.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Peut un agent maîtriser le web ? Exploration des frontières de l'agent ChatGPT Atlas dans les jeux web | Articles | HyperAI