HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Open-AutoGLM:手机端智能助理

一、教程简介

GitHub Stars

Open-AutoGLM 是由智谱 AI 于 2024 年 11 月发布的手机端智能助理框架,基于 AutoGLM 构建。该框架能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。相关论文成果为 AutoGLM: Autonomous Foundation Agents for GUIs

与传统手机自动化工具不同,Phone Agent 采用视觉语言模型进行屏幕感知,结合智能规划能力自动生成并执行操作流程。系统通过 ADB(Android Debug Bridge)控制设备,用户只需用自然语言描述需求,如「打开小红书搜索美食」,Phone Agent 即可自动解析意图、理解当前界面、规划下一步动作并完成整个流程。

系统还内置敏感操作确认机制,并支持在登录或验证码场景下进行人工接管。同时,它提供远程 ADB 调试能力,可通过 WiFi 或网络连接设备,实现灵活的远程控制与开发。

该教程支持如下模型和功能:

2 个模型检查点:

  • AutoGLM-Phone-9B(中文优化版)(默认)
  • AutoGLM-Phone-9B-Multilingual(多语言版)

核心功能:

  • 支持 50+ 款主流中文应用的自动化操作
  • 多模态屏幕理解与智能决策
  • 自然语言交互,无需编写脚本
  • 支持 USB 和 WiFi 远程控制
  • 敏感操作确认与人工接管机制

本教程采用云端部署模型,本地通过 API 调用实现手机自动化控制。

⚠️  重要提示:  本项目仅供研究和学习使用。严禁用于非法获取信息、干扰系统或任何违法活动。

二、项目示例

典型应用场景

Phone Agent 可以自动完成多种日常任务:

电商购物:

  • 「打开淘宝搜索无线耳机」
  • 「在京东上查找手机壳」

美食外卖:

  • 「打开美团搜索附近的火锅店」
  • 「在饿了么上点一份奶茶」

社交内容:

  • 「打开小红书搜索美食攻略」
  • 「在抖音上搜索健身视频」

出行服务:

  • 「打开高德地图导航到最近的咖啡店」
  • 「查询明天去上海的火车票」

三、运行步骤

若模型服务显示「Bad Gateway」,这表示模型正在初始化,请等待约 5-10 分钟后重试。

步骤 1 和步骤 2 已经该教程已经完成,请从步骤 3 开始执行。

1. 本地环境配置

步骤 1:拉取项目

git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM

步骤 2:安装 Python 依赖

建议使用 Python 3.10 及以上版本。

pip install -r requirements.txt
pip install -e .

步骤 3:安装 ADB (Android Debug Bridge)

macOS 用户:

  1. 下载官方 ADB  安装包
  2. 解压到自定义路径(如 ~/Downloads/platform-tools
  3. 配置环境变量

在终端执行(假设解压目录为 ~/Downloads/platform-tools)

export PATH=${PATH}:~/Downloads/platform-tools

验证安装

adb version

Windows/Linux 用户:

请参考 ADB 官网中的相应系统进行配置。

2. 配置远程模型

如果您已在云端部署好模型服务,请记录以下信息:

  • base-url: 模型服务地址,格式如 https://hyperai-tutorials-xxxx.gear-c1.openbayes.net/v1
  • model: 模型名称,默认为 autoglm-phone-9b

3. 配置 Android 设备

步骤 1:手机端准备

  1. 启用开发者模式
    • 进入  设置 > 关于手机 > 版本号
    • 连续快速点击版本号 10 次左右,直到提示” 开发者模式已启用”
  2. 启用 USB 调试
    • 进入  设置 > 开发者选项 > USB 调试,勾选启用
    • 部分机型需重启设备后生效
  3. 启用无线调试(推荐用于远程控制)
    • 确保手机和电脑在同一 WiFi 网络
    • 进入  设置 > 开发者选项 > 无线调试,开启该选项
    • 记录显示的 IP 地址和端口号(如 192.168.31.70:39359
  4. 允许模拟点击权限(部分机型需要安装 SIM 卡)
    • 进入  设置 > 开发者选项 > 模拟点击,启用该选项

请务必仔细检查相关权限:

步骤 2:建立 ADB 连接

方式一:USB 连接

使用 USB 数据线连接手机和电脑 确保数据线具有数据传输功能,而不是仅充电线

查看已连接设备

adb devices

输出示例:

List of devices attached
ABC123456789    device

方式二:无线连接(推荐)

使用手机无线调试中显示的 IP 地址和端口

adb connect 192.168.31.70:39359

验证连接

adb devices

输出示例:

List of devices attached
192.168.31.70:39359    device

device-id 说明: device-id  就是 adb devices  命令输出中的设备标识符。 USB 连接时通常是设备序列号(如 ABC123456789)无线连接时是 IP:端口格式(如 192.168.31.70:39359)。

步骤 3:安装 ADB Keyboard

1. 下载 ADB Keyboard 安装包

2. 在手机上安装该 APK

adb -s <device-id> install path/to/ADBKeyboard.apk

3. 进入  设置 > 输入法  或  设置 > 键盘列表,启用 ADB Keyboard(部分手机型号可能需要重启设备)

2. 开始使用 AutoGLM

启动前准备

  • 保持手机屏幕开启且处于解锁状态
  • 确保 ADB 连接正常(adb devices  能看到设备)

交互模式运行

方式一:USB 连接

python main.py \
  --device-id ABC123456789 \
  --base-url https://hyperai-tutorials-xxx.gear-c1.openbayes.net/v1 \
  --model "autoglm-phone-9b"

参数说明:

  • --device-id: 设备标识符,从 adb devices  获取
  • --base-url: 云端模型服务地址,您部署的 API endpoint
  • --model: 模型名称,与部署时的模型名称一致

方式二:无线连接(推荐)

python main.py \
  --connect 192.168.31.70:39359 \
  --base-url https://hyperai-tutorials-xxx.gear-c1.openbayes.net/v1 \
  --model "autoglm-phone-9b"

参数说明:

  • --connect: 设备 IP,从手机中无限调试页面获取
  • --base-url: 云端模型服务地址,您部署的 API endpoint
  • --model: 模型名称,与部署时的模型名称一致

启动后在交互模式下输入任务,例如:

> 打开小红书搜索美食
> 打开淘宝搜索无线耳机

直接执行任务

python main.py \
  --connect 192.168.31.70:39359 \  # 无线连接
  #--device-id ABC123456789 \  #USB 连接
  --base-url https://hyperai-tutorials-xxx.gear-c1.openbayes.net/v1 \
  --model "autoglm-phone-9b" \
  "打开美团搜索附近的火锅店"

5. 常见问题

设备连接失败

# 重启 ADB 服务
adb kill-server
adb start-server
adb devices

无线连接断开

  • 检查手机和电脑是否在同一 WiFi 网络
  • 重新执行 adb connect  命令
  • 部分设备重启后需重新开启无线调试

文本输入不工作

  • 确认已安装并启用 ADB Keyboard
  • 检查  设置 > 输入法  中是否已启用
  • 部分机型需要重启设备后生效

Windows 编码问题

如遇到 UnicodeEncodeError gbk code  错误:

# 在命令前添加环境变量
set PYTHONIOENCODING=utf-8
python main.py ...

截图失败(黑屏)

这通常意味着应用正在显示敏感页面(支付、密码、银行类应用)。 Agent 会自动检测并请求人工接管。

点击操作坐标不准确

目前项目处于测试阶段,部分 APP 的点击操作可能存在坐标偏差。如遇到此问题,可以通过 GitHub Issues  反馈具体应用和场景,帮助改进模型。

引用信息

如果您觉得我们的工作有帮助,请引用以下论文:

@article{liu2024autoglm,
  title={Autoglm: Autonomous foundation agents for guis},
  author={Liu, Xiao and Qin, Bo and Liang, Dongzhu and Dong, Guang and Lai, Hanyu and Zhang, Hanchen and Zhao, Hanlin and Iong, Iat Long and Sun, Jiadai and Wang, Jiaqi and others},
  journal={arXiv preprint arXiv:2411.00820},
  year={2024}
}

@article{xu2025mobilerl,
title={MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents},
author={Xu, Yifan and Liu, Xiao and Liu, Xinghan and Fu, Jiaqi and Zhang, Hanchen and Jing, Bohao and Zhang, Shudan and Wang, Yuting and Zhao, Wenyi and Dong, Yuxiao},
journal={arXiv preprint arXiv:2509.18119},
year={2025}
}

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Open-AutoGLM:手机端智能助理 | 教程 | HyperAI超神经