HyperAIHyperAI

Command Palette

Search for a command to run...

Open-AutoGLM: 모바일 기기를 위한 스마트 어시스턴트

날짜

5달 전

논문 URL

2411.00820

라이선스

Apache 2.0

GPU 컴퓨팅 에어드롭

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)
지금 사용하기

1. 튜토리얼 소개

GitHub 스타

Open-AutoGLM은 Zhipu AI에서 2024년 11월에 출시한 모바일 지능형 비서 프레임워크로, AutoGLM을 기반으로 구축되었습니다. 이 프레임워크는 다양한 모달 방식으로 모바일 화면 콘텐츠를 이해하고 자동화된 작업을 통해 사용자가 작업을 완료하도록 지원합니다. 관련 연구 논문은 여기에서 확인할 수 있습니다. AutoGLM: GUI를 위한 자율형 파운데이션 에이전트 .

기존의 모바일 자동화 도구와 달리, Phone Agent는 화면 인식을 위한 시각적 언어 모델과 지능형 계획 기능을 결합하여 작업 프로세스를 자동으로 생성하고 실행합니다. 이 시스템은 ADB(Android Debug Bridge)를 통해 기기를 제어합니다. 사용자는 "샤오홍슈를 열어서 음식을 검색해 줘"와 같이 자연어로 원하는 바를 설명하기만 하면 Phone Agent가 자동으로 의도를 분석하고 현재 인터페이스를 파악하여 다음 동작을 계획하고 전체 프로세스를 완료합니다.

이 시스템은 민감한 작업 확인 메커니즘을 내장하고 있으며 로그인 또는 CAPTCHA 시나리오에서 수동 인계를 지원합니다. 또한 원격 ADB 디버깅 기능을 제공하여 Wi-Fi 또는 네트워크 연결을 통해 유연한 원격 제어 및 개발을 가능하게 합니다.

이 튜토리얼은 다음 모델과 기능을 지원합니다.

2개의 모델 점검 지점:

  • AutoGLM-Phone-9B (중국어 최적화 버전) (기본값)
  • AutoGLM-Phone-9B-Multilingual (다국어 버전)

핵심 기능:

  • 50개 이상의 주요 중국 애플리케이션에 대한 자동화된 작업을 지원합니다.
  • 다중 모드 화면 이해 및 지능형 의사 결정
  • 자연어 상호 작용, 스크립트 작성 불필요.
  • USB 및 WiFi 원격 제어를 지원합니다.
  • 민감한 작업 확인 및 수동 인수 메커니즘

이 튜토리얼에서는 클라우드 기반 배포 모델을 사용하며, 모바일 폰의 로컬 자동 제어는 API 호출을 통해 이루어집니다.

⚠️  중요 사항:  본 프로젝트는 연구 및 학습 목적으로만 사용해야 합니다. 불법적인 정보 획득, 시스템 교란 또는 기타 불법 활동에 사용하는 것은 엄격히 금지됩니다.

2. 프로젝트 예시

일반적인 적용 시나리오

Phone Agent는 다양한 일상 업무를 자동화할 수 있습니다.

전자상거래 쇼핑:

  • "타오바오를 열고 무선 헤드폰을 검색하세요."
  • JD.com에서 휴대폰 케이스를 검색 중입니다.

음식 배달:

  • "메이투안을 열고 근처 훠궈 식당을 검색하세요."
  • Eleme에서 밀크티를 주문하세요.

소셜 콘텐츠:

  • "샤오홍슈를 열고 음식 가이드를 검색하세요."
  • 틱톡에서 피트니스 영상을 검색 중입니다.

여행 서비스:

  • "아맵(가오데 지도)을 열고 가장 가까운 커피숍으로 길찾기를 하세요."
  • "내일 상하이행 기차표를 확인하는 중"

3. 작업 단계

모델 서비스에 "Bad Gateway" 오류가 표시되면 모델이 초기화 중이라는 의미입니다. 5~10분 정도 기다린 후 다시 시도해 주세요.

1단계와 2단계가 완료되었습니다. 3단계로 진행해 주십시오.

1. 로컬 환경 구성

1단계: 프로젝트를 가져옵니다

git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM

2단계: 파이썬 종속성 설치

Python 3.10 이상 버전을 사용하는 것이 좋습니다.

pip install -r requirements.txt
pip install -e .

3단계: ADB(Android Debug Bridge)를 설치합니다.

macOS 사용자:

  1. 공식 ADB 파일을 다운로드하세요.  설치 패키지
  2. (예:) 사용자 지정 경로로 압축 해제 ~/Downloads/platform-tools
  3. 환경 변수를 구성합니다

(압축 해제 디렉토리가 ~/Downloads/platform-tools라고 가정하고) 터미널에서 명령어를 실행하세요.

export PATH=${PATH}:~/Downloads/platform-tools

설치 확인

adb version

Windows/Linux 사용자:

참조해 주십시오. ADB 공식 웹사이트가운데에 해당하는 시스템을 구성하십시오.

2. 원격 모델을 구성합니다.

이미 클라우드에 모델 서비스를 배포한 경우 다음 정보를 기록해 주십시오.

  • 기본 URL모델 서비스 주소는 다음 형식입니다. https://hyperai-tutorials-xxxx.gear-c1.openbayes.net/v1
  • 모델모델 이름, 기본값은 다음과 같습니다. autoglm-phone-9b

3. 안드로이드 기기 설정

1단계: 모바일 기기 준비

  1. 개발자 모드를 활성화하세요
    • 입력하다  设置 > 关于手机 > 版本号
    • "개발자 모드가 활성화되었습니다"라는 메시지가 나타날 때까지 버전 번호를 빠르게 10번 정도 탭하세요.
  2. USB 디버깅을 활성화합니다.
    • 입력하다  设置 > 开发者选项 > USB 调试활성화하려면 확인란을 선택하세요.
    • 일부 모델의 경우 변경 사항을 적용하려면 기기를 재시작해야 합니다.
  3. 무선 디버깅을 활성화합니다.(원격 제어에 권장)
    • 휴대폰과 컴퓨터가 동일한 Wi-Fi 네트워크에 연결되어 있는지 확인하세요.
    • 입력하다  设置 > 开发者选项 > 无线调试이 옵션을 활성화하세요
    • 해당 기록에는 IP 주소와 포트 번호가 표시됩니다(예:). 192.168.31.70:39359
  4. 시뮬레이션 클릭을 허용합니다(일부 모델은 SIM 카드가 필요합니다.)
    • 입력하다  设置 > 开发者选项 > 模拟点击이 옵션을 활성화하세요

관련 권한을 주의 깊게 확인해 주십시오.

2단계: ADB 연결 설정

방법 1: USB 연결

휴대폰과 컴퓨터를 USB 데이터 케이블로 연결할 때는 충전용 케이블이 아닌 데이터 전송 기능이 있는 케이블인지 확인하십시오.

연결된 기기 보기

adb devices

출력 예시:

List of devices attached
ABC123456789    device

방법 2: 무선 연결 (권장)

휴대전화의 무선 디버깅 설정에 표시된 IP 주소와 포트를 사용하십시오.

adb connect 192.168.31.70:39359

연결 상태를 확인하세요

adb devices

출력 예시:

List of devices attached
192.168.31.70:39359    device

장치 ID 설명: device-id  그것은 adb devices  명령 출력에 표시되는 장치 식별자입니다. USB로 연결된 경우 일반적으로 장치 일련 번호(예: ...)입니다. ABC123456789무선으로 연결할 때 형식은 IP:포트입니다(예: ...). 192.168.31.70:39359).

3단계: ADB 키보드 설치

1. ADB 키보드 설치 패키지를 다운로드하십시오.

2. APK 파일을 휴대폰에 설치하세요.

adb -s <device-id> install path/to/ADBKeyboard.apk

3. 입력  设置 > 输入法  또는  设置 > 键盘列表할 수 있게 하다 ADB Keyboard(일부 휴대폰 모델은 기기를 재시작해야 할 수 있습니다.)

2. AutoGLM 시작하기

시동 전 준비 사항

  • 휴대전화 화면을 켜둔 상태로 잠금 해제해 두세요.
  • ADB 연결이 제대로 작동하는지 확인하십시오.adb devices  (장비가 보입니다)

대화형 모드 작동

방법 1: USB 연결

python main.py \
  --device-id ABC123456789 \
  --base-url https://hyperai-tutorials-xxx.gear-c1.openbayes.net/v1 \
  --model "autoglm-phone-9b"

매개변수 설명:

  • --device-id기기 식별자(부터) adb devices  얻다
  • --base-url클라우드 기반 모델 서비스 주소, 즉 배포한 API 엔드포인트입니다.
  • --model모델명은 배포 시 사용된 모델명과 일치해야 합니다.

방법 2: 무선 연결 (권장)

python main.py \
  --connect 192.168.31.70:39359 \
  --base-url https://hyperai-tutorials-xxx.gear-c1.openbayes.net/v1 \
  --model "autoglm-phone-9b"

매개변수 설명:

  • --connect휴대폰의 무선 디버깅 페이지에서 얻은 장치 IP 주소입니다.
  • --base-url클라우드 기반 모델 서비스 주소, 즉 배포한 API 엔드포인트입니다.
  • --model모델명은 배포 시 사용된 모델명과 일치해야 합니다.

시작 후, 예를 들어 다음과 같이 대화형 모드로 작업에 진입하십시오.

> 打开小红书搜索美食
> 打开淘宝搜索无线耳机

작업을 직접 실행하세요

python main.py \
  --connect 192.168.31.70:39359 \  # 无线连接
  #--device-id ABC123456789 \  #USB 连接
  --base-url https://hyperai-tutorials-xxx.gear-c1.openbayes.net/v1 \
  --model "autoglm-phone-9b" \
  "打开美团搜索附近的火锅店"

5. 자주 묻는 질문

장치 연결 실패

# 重启 ADB 服务
adb kill-server
adb start-server
adb devices

무선 연결이 끊어졌습니다.

  • 휴대폰과 컴퓨터가 동일한 Wi-Fi 네트워크에 연결되어 있는지 확인하세요.
  • 다시 실행 adb connect  주문하다
  • 일부 기기는 재부팅 후 무선 디버깅을 다시 활성화해야 합니다.

텍스트 입력이 작동하지 않습니다.

  • ADB Keyboard가 설치되어 있고 활성화되어 있는지 확인하십시오.
  • 조사하다  设置 > 输入法  중국에서도 사용 가능해졌나요?
  • 일부 모델의 경우 변경 사항을 적용하려면 기기를 재시작해야 합니다.

윈도우 인코딩 문제

만약 당신이 마주치게 된다면 UnicodeEncodeError gbk code  실수:

# 在命令前添加环境变量
set PYTHONIOENCODING=utf-8
python main.py ...

스크린샷 실패 (검은 화면)

이는 일반적으로 앱이 민감한 페이지(결제, 비밀번호, 뱅킹 앱)를 표시하고 있음을 의미합니다. 상담원이 자동으로 이를 감지하고 수동 개입을 요청합니다.

클릭 작업 좌표가 정확하지 않습니다.

현재 프로젝트는 테스트 단계에 있으며, 앱의 일부 클릭 작업에서 좌표 오차가 발생할 수 있습니다. 이러한 문제가 발생하는 경우... GitHub 이슈  모델 개선에 도움이 될 수 있도록 특정 응용 분야 및 시나리오에 대한 피드백을 제공해 주세요.

인용 정보

저희 연구가 도움이 되었다면 다음 논문들을 인용해 주시기 바랍니다.

@article{liu2024autoglm,
  title={Autoglm: Autonomous foundation agents for guis},
  author={Liu, Xiao and Qin, Bo and Liang, Dongzhu and Dong, Guang and Lai, Hanyu and Zhang, Hanchen and Zhao, Hanlin and Iong, Iat Long and Sun, Jiadai and Wang, Jiaqi and others},
  journal={arXiv preprint arXiv:2411.00820},
  year={2024}
}

@article{xu2025mobilerl,
title={MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents},
author={Xu, Yifan and Liu, Xiao and Liu, Xinghan and Fu, Jiaqi and Zhang, Hanchen and Jing, Bohao and Zhang, Shudan and Wang, Yuting and Zhao, Wenyi and Dong, Yuxiao},
journal={arXiv preprint arXiv:2509.18119},
year={2025}
}

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
Open-AutoGLM: 모바일 기기를 위한 스마트 어시스턴트 | 노트북 | HyperAI초신경