Command Palette
Search for a command to run...
AutoGLM: GUI를 위한 자율 기초 에이전트
AutoGLM: GUI를 위한 자율 기초 에이전트
Open-AutoGLM: 모바일 기기를 위한 스마트 어시스턴트
초록
우리는 그래픽 사용자 인터페이스(GUI)를 통해 디지털 장치의 자율적 제어를 위한 기초 에이전트(Foundation Agents)로 활용되도록 설계된 ChatGLM 시리즈의 새로운 제품인 AutoGLM을 소개한다. 기초 모델은 인간 지식을 효과적으로 습득하는 데 뛰어나지만, 변화하는 실제 환경에서의 의사결정에는 여전히 어려움을 겪으며, 이는 인공 일반 지능(AGI) 달성에 대한 진전을 제한하고 있다. 이러한 한계는 기존 모델을 강화하고 자율적인 환경 상호작용을 통해 학습할 수 있는 기초 에이전트 개발의 중요성을 부각시킨다. 웹 브라우저와 스마트폰을 대표적인 GUI 시나리오로 삼아, 실세계 GUI 상호작용을 위한 실용적인 기초 에이전트 시스템인 AutoGLM을 개발하였다. 본 연구에서는 사용자에게 배포 가능한 에이전트 시스템을 구현하기 위해 종합적인 기술과 인프라를 통합하였다. 이를 통해 두 가지 핵심 통찰을 도출하였다. 첫째, GUI 제어를 위한 적절한 '중간 인터페이스(intermediate interface)' 설계가 매우 중요하며, 이는 계획(planning)과 기반(grounding) 행동을 분리할 수 있도록 하여, 각각의 유연성과 정확성에 대해 별도로 최적화할 수 있도록 한다. 둘째, AutoGLM을 위한 자기 진화형 온라인 커리큘럼 강화 학습을 가능하게 하는 새로운 점진적 학습 프레임워크를 개발하였다. 평가 결과, AutoGLM이 다양한 영역에서 뛰어난 성능을 보임을 입증하였다. 웹 브라우징 영역에서는 VAB-WebArena-Lite에서 55.2%의 성공률을 기록하였으며(두 번째 시도 시 59.1%로 향상), OpenTable 평가 과제에서는 96.2%의 성공률을 달성하였다. 안드로이드 장치 제어 영역에서는 AndroidLab(VAB-Mobile)에서 36.2%의 성공률을 보였으며, 중국 내 인기 앱에서 일반적인 작업 수행 시 89.7%의 성공률을 기록하였다.