12시간 전

ComputerRL: 컴퓨터 사용 에이전트를 위한 엔드투엔드 온라인 강화학습의 규모 확대

Hanyu Lai, Xiao Liu, Yanxiao Zhao, Han Xu, Hanchen Zhang, Bohao Jing, et al
ComputerRL: 컴퓨터 사용 에이전트를 위한 엔드투엔드 온라인 강화학습의 규모 확대
초록

우리는 에이전트가 복잡한 디지털 작업 환경을 유능하게 운영할 수 있도록 지원하는 자율 데스크탑 지능을 위한 프레임워크인 ComputerRL을 소개한다. ComputerRL은 프로그래밍 기반의 API 호출과 직접적인 GUI 상호작용을 통합하는 API-GUI 패러다임을 특징으로 하며, 기계 기반 에이전트와 인간 중심의 데스크탑 환경 간의 본질적인 불일치를 해결한다. 다양한 데스크탑 작업에 대한 성능 향상과 일반화를 위해 엔드투엔드 강화학습(Reinforcement Learning, RL) 학습의 확장은 필수적이지만, 장기간 학습 시 환경의 비효율성과 불안정성으로 인해 여전히 도전 과제로 남아 있다. 이를 해결하기 위해, 대규모 온라인 RL을 가속화할 수 있도록 수천 개의 병렬 가상 데스크탑 환경을 조율할 수 있는 분산형 RL 인프라를 개발하였다. 더불어, 장기간 학습 과정에서 엔트로피 붕괴(entropic collapse)를 효과적으로 완화하기 위해 강화학습과 지도형 미세조정(supervised fine-tuning)을 번갈아 수행하는 Entropulse 학습 전략을 제안한다. 본 연구에서는 오픈 소스 모델인 GLM-4-9B-0414와 Qwen2.5-14B를 기반으로 ComputerRL을 적용하였으며, OSWorld 벤치마크에서 성능을 평가하였다. GLM-4-9B-0414 기반의 AutoGLM-OS-9B는 48.1%의 새로운 최고 정확도를 달성하며, 일반화된 에이전트의 데스크탑 자동화 능력에서 상당한 향상을 보였다. 본 알고리즘과 프레임워크는 AutoGLM(이우 등, 2024a) 구축에 활용되었다.