HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

1. Einführung in das Tutorial

GitHub Stars

Open-AutoGLM ist ein von Zhipu AI im November 2024 veröffentlichtes Framework für intelligente mobile Assistenten, das auf AutoGLM basiert. Es kann Bildschirminhalte multimodal erfassen und Nutzer durch automatisierte Abläufe bei der Aufgabenerledigung unterstützen. Zugehörige Forschungsarbeiten sind verfügbar. AutoGLM: Autonome Foundation Agents für GUIs .

Im Gegensatz zu herkömmlichen Automatisierungstools für Mobilgeräte nutzt Phone Agent ein visuelles Sprachmodell zur Bildschirmerkennung in Kombination mit intelligenten Planungsfunktionen, um Betriebsabläufe automatisch zu generieren und auszuführen. Das System steuert das Gerät über ADB (Android Debug Bridge). Nutzer müssen lediglich ihre Bedürfnisse in natürlicher Sprache beschreiben, z. B. „Xiaohongshu öffnen, um nach Essen zu suchen“. Phone Agent analysiert dann automatisch die Absicht, versteht die aktuelle Benutzeroberfläche, plant die nächste Aktion und führt den gesamten Prozess aus.

Das System verfügt zudem über einen integrierten, sensiblen Mechanismus zur Bestätigung von Operationen und unterstützt die manuelle Übernahme bei Anmelde- oder CAPTCHA-Abfragen. Darüber hinaus bietet es Remote-ADB-Debugging-Funktionen und ermöglicht so eine flexible Fernsteuerung und -entwicklung über WLAN oder Netzwerkverbindung.

Dieses Tutorial unterstützt die folgenden Modelle und Funktionen:

2 Modell-Prüfpunkte:

  • AutoGLM-Phone-9B (Chinesische optimierte Version) (Standard)
  • AutoGLM-Phone-9B-Multilingual (Mehrsprachige Version)

Kernfunktionen:

  • Unterstützt automatisierte Abläufe für mehr als 50 gängige chinesische Anwendungen.
  • Multimodale Bildschirmerkennung und intelligente Entscheidungsfindung
  • Interaktion in natürlicher Sprache, kein Skript erforderlich.
  • Unterstützt USB- und WLAN-Fernbedienung
  • Empfindliche Betriebsbestätigung und manueller Übernahmemechanismus

Dieses Tutorial verwendet ein Cloud-basiertes Bereitstellungsmodell, wobei die lokale automatisierte Steuerung des Mobiltelefons über API-Aufrufe erfolgt.

⚠️  Wichtiger Hinweis:  Dieses Projekt dient ausschließlich Forschungs- und Lernzwecken. Jegliche Nutzung zur illegalen Informationsbeschaffung, Systemmanipulation oder für sonstige illegale Aktivitäten ist strengstens untersagt.

2. Projektbeispiele

Typische Anwendungsszenarien

Der Telefonagent kann eine Vielzahl von alltäglichen Aufgaben automatisieren:

Online-Shopping:

  • Öffne Taobao und suche nach kabellosen Kopfhörern.
  • Suche nach Handyhüllen auf JD.com

Essenslieferung:

  • „Öffne Meituan und suche nach Hot-Pot-Restaurants in der Nähe.“
  • Bestellen Sie einen Milchtee bei Eleme.

Social-Media-Inhalte:

  • „Öffne Xiaohongshu und suche nach Restaurantführern.“
  • Ich suche Fitnessvideos auf TikTok.

Reisedienstleistungen:

  • „Öffnen Sie Amap (Gaode Maps) und navigieren Sie zum nächstgelegenen Café.“
  • "Ich überprüfe die Zugtickets nach Shanghai für morgen."

3. Bedienungsschritte

Wenn der Modelldienst „Bad Gateway“ anzeigt, bedeutet dies, dass das Modell initialisiert wird. Bitte warten Sie etwa 5–10 Minuten und versuchen Sie es erneut.

Die Schritte 1 und 2 sind nun abgeschlossen. Bitte fahren Sie mit Schritt 3 fort.

1. Lokale Umgebungskonfiguration

Schritt 1: Das Projekt abrufen

git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM

Schritt 2: Python-Abhängigkeiten installieren

Es wird empfohlen, Python 3.10 oder höher zu verwenden.

pip install -r requirements.txt
pip install -e .

Schritt 3: ADB (Android Debug Bridge) installieren

macOS-Benutzer:

  1. Laden Sie die offizielle ADB-Version herunter.  Installationspaket
  2. In einen benutzerdefinierten Pfad extrahieren (z.B.) ~/Downloads/platform-tools
  3. Umgebungsvariablen konfigurieren

Führen Sie den Befehl im Terminal aus (vorausgesetzt, das Entpackungsverzeichnis ist ~/Downloads/platform-tools).

export PATH=${PATH}:~/Downloads/platform-tools

Installation überprüfen

adb version

Windows-/Linux-Benutzer:

Bitte beachten Sie Offizielle Website der ADBKonfigurieren Sie das entsprechende System in der Mitte.

2. Konfigurieren Sie das Fernbedienungsmodell

Falls Sie den Modelldienst bereits in der Cloud bereitgestellt haben, notieren Sie bitte die folgenden Informationen:

  • Basis-URLModell-Serviceadresse im folgenden Format: https://hyperai-tutorials-xxxx.gear-c1.openbayes.net/v1
  • ModellModellname, Standardwert autoglm-phone-9b

3. Konfigurieren Sie das Android-Gerät

Schritt 1: Vorbereitung des Mobilgeräts

  1. Entwicklermodus aktivieren
    • Eingeben  设置 > 关于手机 > 版本号
    • Tippen Sie etwa 10 Mal schnell auf die Versionsnummer, bis die Meldung „Entwicklermodus ist aktiviert“ erscheint.
  2. USB-Debugging aktivieren
    • Eingeben  设置 > 开发者选项 > USB 调试Aktivieren Sie das Kontrollkästchen, um die Funktion zu aktivieren.
    • Bei einigen Modellen ist ein Neustart des Geräts erforderlich, damit die Änderungen wirksam werden.
  3. Drahtloses Debugging aktivieren(Empfohlen für Fernbedienung)
    • Stellen Sie sicher, dass sich Ihr Telefon und Ihr Computer im selben WLAN-Netzwerk befinden.
    • Eingeben  设置 > 开发者选项 > 无线调试Diese Option aktivieren
    • Der Datensatz zeigt die IP-Adresse und die Portnummer an (z. B.). 192.168.31.70:39359
  4. Simulierte Klicks zulassen(Für einige Modelle wird eine SIM-Karte benötigt)
    • Eingeben  设置 > 开发者选项 > 模拟点击Diese Option aktivieren

Bitte prüfen Sie die entsprechenden Berechtigungen sorgfältig:

Schritt 2: Eine ADB-Verbindung herstellen

Methode 1: USB-Verbindung

Wenn Sie Ihr Telefon und Ihren Computer mit einem USB-Datenkabel verbinden, stellen Sie sicher, dass das Kabel zur Datenübertragung geeignet ist und nicht nur ein Ladekabel.

Verbundene Geräte anzeigen

adb devices

Beispielausgabe:

List of devices attached
ABC123456789    device

Methode 2: Drahtlose Verbindung (empfohlen)

Verwenden Sie die IP-Adresse und den Port, die in den Einstellungen für das drahtlose Debugging des Telefons angezeigt werden.

adb connect 192.168.31.70:39359

Verbindung prüfen

adb devices

Beispielausgabe:

List of devices attached
192.168.31.70:39359    device

Geräte-ID-Beschreibung: device-id  das heißt adb devices  Die Geräte-ID in der Befehlsausgabe. Bei Verbindung über USB ist dies typischerweise die Seriennummer des Geräts (z. B. ...). ABC123456789Bei drahtloser Verbindung lautet das Format IP:Port (z. B. ...). 192.168.31.70:39359).

Schritt 3: ADB-Tastatur installieren

1. Laden Sie das ADB Keyboard-Installationspaket herunter.

2. Installieren Sie die APK-Datei auf Ihrem Telefon.

adb -s <device-id> install path/to/ADBKeyboard.apk

3. Eingabe  设置 > 输入法  oder  设置 > 键盘列表Aktivieren ADB Keyboard(Bei einigen Telefonmodellen ist möglicherweise ein Neustart des Geräts erforderlich.)

2. Erste Schritte mit AutoGLM

Vorbereitungen vor dem Start

  • Lassen Sie Ihr Handy-Display eingeschaltet und entsperrt.
  • Stellen Sie sicher, dass die ADB-Verbindung ordnungsgemäß funktioniert.adb devices  (Die Ausrüstung ist zu sehen)

Betrieb im interaktiven Modus

Methode 1: USB-Verbindung

python main.py \
  --device-id ABC123456789 \
  --base-url https://hyperai-tutorials-xxx.gear-c1.openbayes.net/v1 \
  --model "autoglm-phone-9b"

Parameterbeschreibung:

  • --device-idGeräte-ID, von adb devices  Erhalten
  • --base-urlDie Adresse des Cloud-basierten Modelldienstes, der von Ihnen bereitgestellte API-Endpunkt.
  • --modelModellname, der mit dem während der Bereitstellung verwendeten Modellnamen übereinstimmt.

Methode 2: Drahtlose Verbindung (empfohlen)

python main.py \
  --connect 192.168.31.70:39359 \
  --base-url https://hyperai-tutorials-xxx.gear-c1.openbayes.net/v1 \
  --model "autoglm-phone-9b"

Parameterbeschreibung:

  • --connectGeräte-IP-Adresse, abgerufen von der Wireless-Debugging-Seite des Telefons.
  • --base-urlDie Adresse des Cloud-basierten Modelldienstes, der von Ihnen bereitgestellte API-Endpunkt.
  • --modelModellname, der mit dem während der Bereitstellung verwendeten Modellnamen übereinstimmt.

Nach dem Startvorgang rufen Sie die Aufgabe im interaktiven Modus auf, zum Beispiel:

> 打开小红书搜索美食
> 打开淘宝搜索无线耳机

Führe die Aufgabe direkt aus

python main.py \
  --connect 192.168.31.70:39359 \  # 无线连接
  #--device-id ABC123456789 \  #USB 连接
  --base-url https://hyperai-tutorials-xxx.gear-c1.openbayes.net/v1 \
  --model "autoglm-phone-9b" \
  "打开美团搜索附近的火锅店"

5. Häufig gestellte Fragen

Geräteverbindung fehlgeschlagen

# 重启 ADB 服务
adb kill-server
adb start-server
adb devices

Drahtlose Verbindung unterbrochen

  • Prüfen Sie, ob sich Ihr Telefon und Ihr Computer im selben WLAN-Netzwerk befinden.
  • Erneut ausführen adb connect  Befehl
  • Bei einigen Geräten muss das drahtlose Debugging nach einem Neustart erneut aktiviert werden.

Die Texteingabe funktioniert nicht.

  • Vergewissern Sie sich, dass ADB Keyboard installiert und aktiviert ist.
  • prüfen  设置 > 输入法  Ist es in China aktiviert?
  • Bei einigen Modellen ist ein Neustart des Geräts erforderlich, damit die Änderungen wirksam werden.

Windows-Codierungsprobleme

Wenn Sie auf UnicodeEncodeError gbk code  Fehler:

# 在命令前添加环境变量
set PYTHONIOENCODING=utf-8
python main.py ...

Screenshot fehlgeschlagen (schwarzer Bildschirm)

Dies bedeutet in der Regel, dass die App sensible Seiten (Zahlungs-, Passwort- oder Banking-Apps) anzeigt. Der Agent erkennt dies automatisch und fordert ein manuelles Eingreifen an.

Die Koordinaten für die Klickoperation sind ungenau.

Das Projekt befindet sich aktuell in der Testphase, und es kann bei einigen Klickvorgängen der App zu Koordinatenabweichungen kommen. Sollten Sie auf dieses Problem stoßen, können Sie... GitHub-Probleme  Geben Sie Feedback zu konkreten Anwendungen und Szenarien, um das Modell zu verbessern.

Zitationsinformationen

Wenn Sie unsere Arbeit hilfreich finden, zitieren Sie bitte die folgenden Publikationen:

@article{liu2024autoglm,
  title={Autoglm: Autonomous foundation agents for guis},
  author={Liu, Xiao and Qin, Bo and Liang, Dongzhu and Dong, Guang and Lai, Hanyu and Zhang, Hanchen and Zhao, Hanlin and Iong, Iat Long and Sun, Jiadai and Wang, Jiaqi and others},
  journal={arXiv preprint arXiv:2411.00820},
  year={2024}
}

@article{xu2025mobilerl,
title={MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents},
author={Xu, Yifan and Liu, Xiao and Liu, Xinghan and Fu, Jiaqi and Zhang, Hanchen and Jing, Bohao and Zhang, Shudan and Wang, Yuting and Zhao, Wenyi and Dong, Yuxiao},
journal={arXiv preprint arXiv:2509.18119},
year={2025}
}

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp