작은 모델로 시작해 GUI 자동화 에이전트로 진화한 Smol2Operator: 훈련 기반 시각-언어 모델의 실용적 도전
4일 전
이 연구는 가벼운 시각-언어 모델(SmolVLM2-2.2B-Instruct)을 활용해 GUI 기반 작업을 수행하는 AI 에이전트를 개발하는 과정을 제시한다. 연구팀은 두 단계의 훈련 전략을 통해 모델이 GUI 요소를 인식하고, 복잡한 작업을 계획·실행하는 능력을 갖추도록 했다. 첫 번째 단계에서는 다양한 GUI 데이터셋을 통합한 표준화된 액션 공간으로 변환하고, 스크린샷과 액션 쌍을 이용해 모델에 GUI 인식 능력을 부여했다. 이 과정에서 1152px 해상도와 정규화된 좌표를 사용했을 때 ScreenSpot-v2 기준 정확도가 기존 0%에서 41.27%로 크게 향상됐다. 두 번째 단계에서는 추론 능력을 강화하기 위해 agentic 시나리오 데이터(smolagents/aguvis-stage-2)를 활용해 모델이 명령을 분석하고 다단계 행동을 계획하도록 훈련했다. 결과적으로 정확도는 61.71%까지 상승하며, 모델이 단순한 요소 탐지에서 벗어나 의미 기반의 작업 수행이 가능해짐을 입증했다. 연구팀은 모든 훈련 레시피, 데이터 처리 도구, 데이터셋, 모델을 오픈소스로 공개해 재현성과 연구 확장성을 보장했다. 특히, nanoVLM-460M과 같은 작은 모델에서도 유사한 성능을 달성해 이 방법론의 확장성과 효율성을 입증했다. 이는 향후 실시간 학습과 강화학습 기반 GUI 에이전트 개발의 기반을 마련한다.