Open-AutoGLM: 모바일 기기를 위한 스마트 어시스턴트

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)

초록

우리는 그래픽 사용자 인터페이스(GUI)를 통해 디지털 장치의 자율적 제어를 위한 기초 에이전트(Foundation Agents)로 활용되도록 설계된 ChatGLM 시리즈의 새로운 제품인 AutoGLM을 소개한다. 기초 모델은 인간 지식을 효과적으로 습득하는 데 뛰어나지만, 변화하는 실제 환경에서의 의사결정에는 여전히 어려움을 겪으며, 이는 인공 일반 지능(AGI) 달성에 대한 진전을 제한하고 있다. 이러한 한계는 기존 모델을 강화하고 자율적인 환경 상호작용을 통해 학습할 수 있는 기초 에이전트 개발의 중요성을 부각시킨다. 웹 브라우저와 스마트폰을 대표적인 GUI 시나리오로 삼아, 실세계 GUI 상호작용을 위한 실용적인 기초 에이전트 시스템인 AutoGLM을 개발하였다. 본 연구에서는 사용자에게 배포 가능한 에이전트 시스템을 구현하기 위해 종합적인 기술과 인프라를 통합하였다. 이를 통해 두 가지 핵심 통찰을 도출하였다. 첫째, GUI 제어를 위한 적절한 '중간 인터페이스(intermediate interface)' 설계가 매우 중요하며, 이는 계획(planning)과 기반(grounding) 행동을 분리할 수 있도록 하여, 각각의 유연성과 정확성에 대해 별도로 최적화할 수 있도록 한다. 둘째, AutoGLM을 위한 자기 진화형 온라인 커리큘럼 강화 학습을 가능하게 하는 새로운 점진적 학습 프레임워크를 개발하였다. 평가 결과, AutoGLM이 다양한 영역에서 뛰어난 성능을 보임을 입증하였다. 웹 브라우징 영역에서는 VAB-WebArena-Lite에서 55.2%의 성공률을 기록하였으며(두 번째 시도 시 59.1%로 향상), OpenTable 평가 과제에서는 96.2%의 성공률을 달성하였다. 안드로이드 장치 제어 영역에서는 AndroidLab(VAB-Mobile)에서 36.2%의 성공률을 보였으며, 중국 내 인기 앱에서 일반적인 작업 수행 시 89.7%의 성공률을 기록하였다.

소스 PDF