Open-AutoGLM:手机端智能助理
一、教程简介

Open-AutoGLM 是由智谱 AI 于 2024 年 11 月发布的手机端智能助理框架,基于 AutoGLM 构建。该框架能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。相关论文成果为 AutoGLM: Autonomous Foundation Agents for GUIs 。
与传统手机自动化工具不同,Phone Agent 采用视觉语言模型进行屏幕感知,结合智能规划能力自动生成并执行操作流程。系统通过 ADB(Android Debug Bridge)控制设备,用户只需用自然语言描述需求,如「打开小红书搜索美食」,Phone Agent 即可自动解析意图、理解当前界面、规划下一步动作并完成整个流程。
系统还内置敏感操作确认机制,并支持在登录或验证码场景下进行人工接管。同时,它提供远程 ADB 调试能力,可通过 WiFi 或网络连接设备,实现灵活的远程控制与开发。
该教程支持如下模型和功能:
2 个模型检查点:
- AutoGLM-Phone-9B(中文优化版)(默认)
- AutoGLM-Phone-9B-Multilingual(多语言版)
核心功能:
- 支持 50+ 款主流中文应用的自动化操作
- 多模态屏幕理解与智能决策
- 自然语言交互,无需编写脚本
- 支持 USB 和 WiFi 远程控制
- 敏感操作确认与人工接管机制
本教程采用云端部署模型,本地通过 API 调用实现手机自动化控制。
⚠️ 重要提示: 本项目仅供研究和学习使用。严禁用于非法获取信息、干扰系统或任何违法活动。
二、项目示例
典型应用场景
Phone Agent 可以自动完成多种日常任务:
电商购物:
- 「打开淘宝搜索无线耳机」
- 「在京东上查找手机壳」
美食外卖:
- 「打开美团搜索附近的火锅店」
- 「在饿了么上点一份奶茶」
社交内容:
- 「打开小红书搜索美食攻略」
- 「在抖音上搜索健身视频」
出行服务:
- 「打开高德地图导航到最近的咖啡店」
- 「查询明天去上海的火车票」
三、运行步骤
若模型服务显示「Bad Gateway」,这表示模型正在初始化,请等待约 5-10 分钟后重试。
步骤 1 和步骤 2 已经该教程已经完成,请从步骤 3 开始执行。
1. 本地环境配置
步骤 1:拉取项目
git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM
步骤 2:安装 Python 依赖
建议使用 Python 3.10 及以上版本。
pip install -r requirements.txt
pip install -e .
步骤 3:安装 ADB (Android Debug Bridge)
macOS 用户:
- 下载官方 ADB 安装包
- 解压到自定义路径(如
~/Downloads/platform-tools) - 配置环境变量
在终端执行(假设解压目录为 ~/Downloads/platform-tools)
export PATH=${PATH}:~/Downloads/platform-tools
验证安装
adb version
Windows/Linux 用户:
请参考 ADB 官网中的相应系统进行配置。
2. 配置远程模型
如果您已在云端部署好模型服务,请记录以下信息:

- base-url: 模型服务地址,格式如
https://hyperai-tutorials-xxxx.gear-c1.openbayes.net/v1 - model: 模型名称,默认为
autoglm-phone-9b
3. 配置 Android 设备
步骤 1:手机端准备
- 启用开发者模式
- 进入
设置 > 关于手机 > 版本号 - 连续快速点击版本号 10 次左右,直到提示” 开发者模式已启用”
- 进入
- 启用 USB 调试
- 进入
设置 > 开发者选项 > USB 调试,勾选启用 - 部分机型需重启设备后生效
- 进入
- 启用无线调试(推荐用于远程控制)
- 确保手机和电脑在同一 WiFi 网络
- 进入
设置 > 开发者选项 > 无线调试,开启该选项 - 记录显示的 IP 地址和端口号(如
192.168.31.70:39359)
- 允许模拟点击权限(部分机型需要安装 SIM 卡)
- 进入
设置 > 开发者选项 > 模拟点击,启用该选项
- 进入
请务必仔细检查相关权限:

步骤 2:建立 ADB 连接
方式一:USB 连接
使用 USB 数据线连接手机和电脑 确保数据线具有数据传输功能,而不是仅充电线
查看已连接设备
adb devices
输出示例:
List of devices attached
ABC123456789 device
方式二:无线连接(推荐)
使用手机无线调试中显示的 IP 地址和端口
adb connect 192.168.31.70:39359
验证连接
adb devices
输出示例:
List of devices attached
192.168.31.70:39359 device
device-id 说明:
device-id就是adb devices命令输出中的设备标识符。 USB 连接时通常是设备序列号(如ABC123456789)无线连接时是 IP:端口格式(如192.168.31.70:39359)。
步骤 3:安装 ADB Keyboard
1. 下载 ADB Keyboard 安装包

2. 在手机上安装该 APK
adb -s <device-id> install path/to/ADBKeyboard.apk
3. 进入 设置 > 输入法 或 设置 > 键盘列表,启用 ADB Keyboard(部分手机型号可能需要重启设备)
2. 开始使用 AutoGLM
启动前准备
- 保持手机屏幕开启且处于解锁状态
- 确保 ADB 连接正常(
adb devices能看到设备)
交互模式运行
方式一:USB 连接
python main.py \
--device-id ABC123456789 \
--base-url https://hyperai-tutorials-xxx.gear-c1.openbayes.net/v1 \
--model "autoglm-phone-9b"
参数说明:
--device-id: 设备标识符,从adb devices获取--base-url: 云端模型服务地址,您部署的 API endpoint--model: 模型名称,与部署时的模型名称一致
方式二:无线连接(推荐)
python main.py \
--connect 192.168.31.70:39359 \
--base-url https://hyperai-tutorials-xxx.gear-c1.openbayes.net/v1 \
--model "autoglm-phone-9b"
参数说明:
--connect: 设备 IP,从手机中无限调试页面获取--base-url: 云端模型服务地址,您部署的 API endpoint--model: 模型名称,与部署时的模型名称一致
启动后在交互模式下输入任务,例如:
> 打开小红书搜索美食
> 打开淘宝搜索无线耳机
直接执行任务
python main.py \
--connect 192.168.31.70:39359 \ # 无线连接
#--device-id ABC123456789 \ #USB 连接
--base-url https://hyperai-tutorials-xxx.gear-c1.openbayes.net/v1 \
--model "autoglm-phone-9b" \
"打开美团搜索附近的火锅店"
5. 常见问题
设备连接失败
# 重启 ADB 服务
adb kill-server
adb start-server
adb devices
无线连接断开
- 检查手机和电脑是否在同一 WiFi 网络
- 重新执行
adb connect命令 - 部分设备重启后需重新开启无线调试
文本输入不工作
- 确认已安装并启用 ADB Keyboard
- 检查
设置 > 输入法中是否已启用 - 部分机型需要重启设备后生效
Windows 编码问题
如遇到 UnicodeEncodeError gbk code 错误:
# 在命令前添加环境变量
set PYTHONIOENCODING=utf-8
python main.py ...
截图失败(黑屏)
这通常意味着应用正在显示敏感页面(支付、密码、银行类应用)。 Agent 会自动检测并请求人工接管。
点击操作坐标不准确
目前项目处于测试阶段,部分 APP 的点击操作可能存在坐标偏差。如遇到此问题,可以通过 GitHub Issues 反馈具体应用和场景,帮助改进模型。

引用信息
如果您觉得我们的工作有帮助,请引用以下论文:
@article{liu2024autoglm, title={Autoglm: Autonomous foundation agents for guis}, author={Liu, Xiao and Qin, Bo and Liang, Dongzhu and Dong, Guang and Lai, Hanyu and Zhang, Hanchen and Zhao, Hanlin and Iong, Iat Long and Sun, Jiadai and Wang, Jiaqi and others}, journal={arXiv preprint arXiv:2411.00820}, year={2024} }@article{xu2025mobilerl,
title={MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents},
author={Xu, Yifan and Liu, Xiao and Liu, Xinghan and Fu, Jiaqi and Zhang, Hanchen and Jing, Bohao and Zhang, Shudan and Wang, Yuting and Zhao, Wenyi and Dong, Yuxiao},
journal={arXiv preprint arXiv:2509.18119},
year={2025}
}