Command Palette

Search for a command to run...

2 天前

Agent 能否征服网络?探索 ChatGPT Atlas Agent 在网络游戏中的前沿应用

Jingran Zhang Ning Li Justin Cui

Agent 能否征服网络?探索 ChatGPT Atlas Agent 在网络游戏中的前沿应用

摘要

OpenAI 的 ChatGPT Atlas 引入了新的网页交互能力,使模型能够分析网页内容、理解用户意图,并直接在浏览器中执行光标与键盘输入操作。尽管其在信息检索任务中的表现已得到验证,但在动态、交互式环境中的实际性能仍鲜有研究。在本研究中,我们通过基于浏览器的游戏作为测试场景,对 Atlas 的网页交互能力进行了早期评估,测试游戏包括 Google 的 T-Rex 跑步游戏、数独、Flappy Bird 以及 Stein.world。我们采用游戏内的得分作为量化指标,评估模型在不同任务类型下的表现。结果表明,Atlas 在逻辑推理类任务(如数独)中表现优异,解题速度显著快于人类基准;然而,在需要精确时机把握与运动控制的实时类游戏中,其表现则明显受限,往往无法突破初始障碍。这些发现表明,尽管 Atlas 具备较强的分析处理能力,但在需要实时交互的动态网页环境中仍存在显著局限性。本项目官网地址为:https://atlas-game-eval.github.io。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Agent 能否征服网络?探索 ChatGPT Atlas Agent 在网络游戏中的前沿应用 | 论文 | HyperAI超神经