Open-AutoGLM: モバイルデバイス向けスマートアシスタント
1. チュートリアルの概要

Open-AutoGLMは、Zhipu AIが2024年11月にリリースしたモバイルインテリジェントアシスタントフレームワークで、AutoGLMを基盤としています。このフレームワークは、モバイル画面のコンテンツをマルチモーダルに理解し、自動操作を通じてユーザーのタスク完了を支援します。関連研究論文もご覧いただけます。 AutoGLM: GUI 用の自律型 Foundation エージェント 。
従来のモバイル自動化ツールとは異なり、Phone Agentは画面認識のための視覚言語モデルとインテリジェントな計画機能を組み合わせることで、操作プロセスを自動生成・実行します。システムはADB(Android Debug Bridge)を介してデバイスを制御します。ユーザーは「小紅書を開いて食べ物を探す」など、自然言語でニーズを説明するだけで、Phone Agentは自動的に意図を解析し、現在のインターフェースを理解し、次のアクションを計画し、プロセス全体を完了します。
このシステムには、センシティブな操作確認メカニズムが組み込まれており、ログインやCAPTCHAシナリオにおける手動による引き継ぎをサポートしています。さらに、リモートADBデバッグ機能も提供しており、WiFiまたはネットワーク接続を介して柔軟なリモート制御と開発を可能にします。
このチュートリアルでは、次のモデルと機能がサポートされています。
2 つのモデル チェックポイント:
- AutoGLM-Phone-9B(中国語最適化版)(デフォルト)
- AutoGLM-Phone-9B-Multilingual(多言語版)
コア機能:
- 50 を超える主要な中国のアプリケーションの自動操作をサポートします。
- マルチモーダルスクリーン理解とインテリジェントな意思決定
- 自然言語によるインタラクションで、スクリプトの作成は必要ありません。
- USBおよびWiFiリモートコントロールをサポート
- 繊細な操作確認と手動引き継ぎの仕組み
このチュートリアルでは、クラウドベースの展開モデルを使用し、API 呼び出しを通じてモバイル フォンのローカル自動制御を実現します。
⚠️ 重要な注意: このプロジェクトは研究・学習目的のみに利用されます。不正な情報取得、システムへの干渉、その他違法行為への利用は固く禁じられています。
2. プロジェクト例
典型的なアプリケーションシナリオ
電話エージェントはさまざまな日常的なタスクを自動化できます。
Eコマースショッピング:
- 「Taobaoを開いてワイヤレスヘッドホンを検索」
- JD.comでスマホケースを探す
フードデリバリー:
- 「Meituanを開いて近くの火鍋レストランを検索」
- Elemeでミルクティーを注文してください。
ソーシャルコンテンツ:
- 「小紅書を開いてグルメガイドを検索」
- TikTokでフィットネス動画を検索しています。
旅行サービス:
- 「Amap(Gaode Maps)を開いて、最寄りのコーヒーショップまでナビゲートします。」
- 「明日の上海行きの列車の切符を確認しています」
3. 操作手順
モデルサービスに「Bad Gateway」と表示される場合は、モデルが初期化中であることを意味します。5~10分ほどお待ちいただき、もう一度お試しください。
ステップ1と2は完了です。ステップ3に進んでください。
1. ローカル環境の設定
ステップ1: プロジェクトをプルする
git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM
ステップ2: Pythonの依存関係をインストールする
Python 3.10 以降の使用をお勧めします。
pip install -r requirements.txt
pip install -e .
ステップ3: ADB(Android Debug Bridge)をインストールする
macOS ユーザー:
- 公式ADBをダウンロード インストールパッケージ
- カスタムパスに抽出します(例)
~/Downloads/platform-tools) - 環境変数を設定する
ターミナルでコマンドを実行します (抽出ディレクトリが ~/Downloads/platform-tools であると仮定します)。
export PATH=${PATH}:~/Downloads/platform-tools
インストールを確認する
adb version
Windows/Linux ユーザー:
参照 ADB公式ウェブサイト中央で対応するシステムを構成します。
2. リモートモデルを構成する
モデル サービスをクラウドにすでにデプロイしている場合は、次の情報を記録してください。

- ベースURLモデル サービス アドレスは次の形式になります。
https://hyperai-tutorials-xxxx.gear-c1.openbayes.net/v1 - モデルモデル名、デフォルトは
autoglm-phone-9b
3. Androidデバイスを設定する
ステップ1: モバイルデバイスの準備
- 開発者モードを有効にする
- 入力
设置 > 关于手机 > 版本号 - 「開発者モードが有効です」というメッセージが表示されるまで、バージョン番号を約 10 回素早くタップします。
- 入力
- USBデバッグを有効にする
- 入力
设置 > 开发者选项 > USB 调试有効にするにはボックスにチェックを入れます。 - 一部のモデルでは、変更を有効にするためにデバイスの再起動が必要です。
- 入力
- ワイヤレスデバッグを有効にする(リモコンに推奨)
- 携帯電話とコンピューターが同じ Wi-Fi ネットワーク上にあることを確認してください。
- 入力
设置 > 开发者选项 > 无线调试このオプションを有効にする - レコードには IP アドレスとポート番号が表示されます (例)
192.168.31.70:39359)
- 模擬クリックを許可する(一部モデルではSIMカードが必要です)
- 入力
设置 > 开发者选项 > 模拟点击このオプションを有効にする
- 入力
関連する権限を慎重に確認してください:

ステップ2: ADB接続を確立する
方法1:USB接続
USB データ ケーブルを使用して携帯電話とコンピューターを接続する場合は、ケーブルが充電ケーブルだけでなく、データ転送に対応していることを確認してください。
接続されているデバイスを表示する
adb devices
出力例:
List of devices attached
ABC123456789 device
方法2: ワイヤレス接続(推奨)
携帯電話のワイヤレス デバッグ設定に表示される IP アドレスとポートを使用します。
adb connect 192.168.31.70:39359
接続を確認する
adb devices
出力例:
List of devices attached
192.168.31.70:39359 device
デバイスIDの説明:
device-idつまりadb devicesコマンド出力におけるデバイス識別子。USB接続の場合、通常はデバイスのシリアル番号(例:...)になります。ABC123456789ワイヤレスで接続する場合、形式は IP:ポート (例: ...) になります。192.168.31.70:39359)。
ステップ3:ADBキーボードをインストールする
1. ADB キーボードのインストール パッケージをダウンロードします。

2. 携帯電話に APK をインストールします。
adb -s <device-id> install path/to/ADBKeyboard.apk
3. 入力 设置 > 输入法 または 设置 > 键盘列表有効にする ADB Keyboard(一部の携帯電話モデルではデバイスの再起動が必要になる場合があります)
2. AutoGLMを使い始める
起動前の準備
- 携帯電話の画面をオンにしてロックを解除したままにしてください。
- ADB 接続が正常に機能していることを確認します。
adb devices(装備が見えます)
インタラクティブモード操作
方法1:USB接続
python main.py \
--device-id ABC123456789 \
--base-url https://hyperai-tutorials-xxx.gear-c1.openbayes.net/v1 \
--model "autoglm-phone-9b"
パラメータの説明:
--device-idデバイス識別子、adb devices得る--base-urlクラウドベースのモデル サービスのアドレス、デプロイした API エンドポイント。--modelモデル名。デプロイメント中に使用されるモデル名と一致します。
方法2: ワイヤレス接続(推奨)
python main.py \
--connect 192.168.31.70:39359 \
--base-url https://hyperai-tutorials-xxx.gear-c1.openbayes.net/v1 \
--model "autoglm-phone-9b"
パラメータの説明:
--connect携帯電話のワイヤレス デバッグ ページから取得したデバイスの IP アドレス。--base-urlクラウドベースのモデル サービスのアドレス、デプロイした API エンドポイント。--modelモデル名。デプロイメント中に使用されるモデル名と一致します。
起動後、次のように対話モードでタスクを入力します。
> 打开小红书搜索美食
> 打开淘宝搜索无线耳机
タスクを直接実行する
python main.py \
--connect 192.168.31.70:39359 \ # 无线连接
#--device-id ABC123456789 \ #USB 连接
--base-url https://hyperai-tutorials-xxx.gear-c1.openbayes.net/v1 \
--model "autoglm-phone-9b" \
"打开美团搜索附近的火锅店"
5. よくある質問
デバイスの接続に失敗しました
# 重启 ADB 服务
adb kill-server
adb start-server
adb devices
ワイヤレス接続が失われました
- 携帯電話とコンピューターが同じ Wi-Fi ネットワーク上にあるかどうかを確認します。
- 再実行
adb connect注文 - 一部のデバイスでは、再起動後にワイヤレス デバッグを再度有効にする必要があります。
テキスト入力が機能しません
- ADB キーボードがインストールされ、有効になっていることを確認します。
- 診る
设置 > 输入法中国では有効化されていますか? - 一部のモデルでは、変更を有効にするためにデバイスの再起動が必要です。
Windows のエンコードの問題
遭遇した場合 UnicodeEncodeError gbk code 間違い:
# 在命令前添加环境变量
set PYTHONIOENCODING=utf-8
python main.py ...
スクリーンショットに失敗しました(黒い画面)
これは通常、アプリが機密性の高いページ(支払い、パスワード、銀行アプリなど)を表示していることを意味します。エージェントはこれを自動的に検出し、手動による介入を要求します。
クリック操作の座標が不正確です。
プロジェクトは現在テスト段階にあり、アプリのクリック操作によっては座標のずれが生じる可能性があります。この問題が発生した場合は… GitHub の問題 モデルの改善に役立つ特定のアプリケーションとシナリオに関するフィードバックを提供します。

引用情報
私たちの研究が役に立つと思われる場合は、次の論文を引用してください。
@article{liu2024autoglm, title={Autoglm: Autonomous foundation agents for guis}, author={Liu, Xiao and Qin, Bo and Liang, Dongzhu and Dong, Guang and Lai, Hanyu and Zhang, Hanchen and Zhao, Hanlin and Iong, Iat Long and Sun, Jiadai and Wang, Jiaqi and others}, journal={arXiv preprint arXiv:2411.00820}, year={2024} }@article{xu2025mobilerl,
title={MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents},
author={Xu, Yifan and Liu, Xiao and Liu, Xinghan and Fu, Jiaqi and Zhang, Hanchen and Jing, Bohao and Zhang, Shudan and Wang, Yuting and Zhao, Wenyi and Dong, Yuxiao},
journal={arXiv preprint arXiv:2509.18119},
year={2025}
}