18일 전

SEAgent: 경험을 통해 자율 학습하는 자기진화형 컴퓨터 사용 에이전트

Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, et al
SEAgent: 경험을 통해 자율 학습하는 자기진화형 컴퓨터 사용 에이전트
초록

대규모 시각-언어 모델(LVLM)을 컴퓨터 사용 에이전트(CUA)로 재활용하는 연구는 주로 인간 레이블 데이터에 기반하여 상당한 성과를 거두었다. 그러나 이러한 모델은 인간 레이블이 부족한 상황에서 새로운 또는 전문적인 소프트웨어에 대해 일반적으로 어려움을 겪는다. 이 문제를 해결하기 위해, 우리는 SEAgent라는 에이전트 기반 자기진화 프레임워크를 제안한다. SEAgent는 생소한 소프트웨어와의 상호작용을 통해 CUAs가 자율적으로 진화할 수 있도록 한다. 구체적으로, SEAgent는 컴퓨터 사용 에이전트가 경험 기반 학습을 통해 새로운 소프트웨어 환경을 자율적으로 습득하도록 지원하며, 이 과정에서 에이전트는 새로운 소프트웨어를 탐색하고 반복적인 시도-오류를 통해 학습하며, 단순한 작업부터 복잡한 작업으로 점진적으로 구성된 자동 생성된 과제를 해결한다. 이러한 목표를 달성하기 위해, 우리는 단계별 경로 평가를 위한 월드 상태 모델(World State Model)과 점점 더 다양한 도전 과제를 생성하는 커리큘럼 생성기(Curriculum Generator)를 설계하였다. 에이전트의 정책은 경험 기반 학습을 통해 업데이트되며, 이 과정에서는 실패 행동에 대한 적대적 모방과 성공 행동에 대한 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)가 병행된다. 또한, 전문가 에이전트들로부터 얻은 개별 경험적 통찰을 통합하여 일반화된 에이전트를 개발할 수 있도록 하는 전문가-일반화 전략(Specialist-to-Generalist Training Strategy)을 도입하였다. 이로써 개선된 통합형 에이전트는 전문 소프트웨어에서 각각의 전문가 에이전트 집단보다 뛰어난 성능을 달성한다. 우리는 OS-World 내 5개의 새로운 소프트웨어 환경에서 SEAgent의 유효성을 검증하였으며, 경쟁적인 오픈소스 CUA인 UI-TARS에 비해 성공률이 11.3%에서 34.5%로 23.2% 향상되어 뚜렷한 성능 향상을 입증하였다.