
摘要
我们提出 AutoGLM,这是 ChatGLM 系列中的一个全新系列,旨在作为基础智能体(foundation agents),通过图形用户界面(Graphical User Interfaces, GUI)实现对数字设备的自主控制。尽管基础模型在获取人类知识方面表现出色,但在动态真实环境中的决策能力仍显不足,这限制了其向通用人工智能(Artificial General Intelligence, AGI)迈进的进程。这一局限凸显了开发具备自主环境交互学习能力的基础智能体的重要性,以增强现有模型的性能。我们以网页浏览器和手机作为典型的 GUI 场景,构建了 AutoGLM,作为一个面向真实世界 GUI 交互的实用型基础智能体系统。本研究整合了一套全面的技术与基础设施,构建出可部署、可交付给用户的智能体系统。通过这一工作,我们总结出两个关键洞见:第一,设计合适的“中间接口”(intermediate interface)用于 GUI 控制至关重要,它能够实现规划(planning)与具身化(grounding)行为的分离,而这两类行为分别需要在灵活性与准确性方面进行差异化优化;第二,我们提出了一种新颖的渐进式训练框架,支持 AutoGLM 实现自我演进的在线课程强化学习。评估结果表明,AutoGLM 在多个任务领域均展现出卓越性能:在网页浏览任务中,AutoGLM 在 VAB-WebArena-Lite 上取得 55.2% 的成功率(第二次尝试提升至 59.1%),在 OpenTable 评估任务中达到 96.2%;在安卓设备控制方面,AutoGLM 在 AndroidLab(VAB-Mobile)上实现 36.2% 的成功率,在主流中文应用的常见任务中达到 89.7% 的成功率。