HyperAIHyperAI

Command Palette

Search for a command to run...

UI-S1: 반온라인 강화학습을 통한 GUI 자동화의 발전

초록

그래픽 사용자 인터페이스(GUI) 에이전트는 강화학습을 통해 복잡한 사용자 인터페이스 상호작용을 자동화하는 데 있어 놀라운 진전을 보여왔다. 그러나 현재의 접근 방식은 근본적인 딜레마에 직면해 있다. 오프라인 강화학습(offline RL)은 사전 수집된 트래잭터리(trajectory)를 기반으로 안정적인 학습이 가능하지만, 트래잭터리 수준의 보상 신호가 부족하여 다단계 작업 수행에 어려움을 겪는다. 반면 온라인 강화학습(online RL)은 환경과의 상호작용을 통해 이러한 신호를 포착할 수 있지만, 희박한 보상 신호와 막대한 배포 비용 문제를 안고 있다. 이를 해결하기 위해 우리는 오프라인 트래잭터리 위에서 온라인 강화학습을 시뮬레이션하는 새로운 패러다임인 세미온라인 강화학습(Semi-online Reinforcement Learning)을 제안한다. 각 롤아웃 과정에서 다단계 대화 내 원래 모델 출력을 유지하며, 패치 모듈(Patch Module)이 롤아웃 경로와 전문가 경로 간의 편차를 적응적으로 복구한다. 장기적인 학습 신호를 포착하기 위해, 세미온라인 강화학습은 보상 계산에 할인된 미래 수익(discounted future returns)을 도입하고, 가중된 단계 수준 및 에피소드 수준의 이득(advantages)을 기반으로 정책을 최적화한다. 또한 실제 온라인 성능과 더 잘 일치하는 실용적이고 효과적인 대체 지표인 세미온라인 성능(Semi-Online Performance, SOP)을 도입한다. 실험 결과, 제안한 세미온라인 강화학습은 7B 규모 모델 기준으로 네 가지 동적 벤치마크에서 최고 성능(SOTA)을 달성하였으며, 기준 모델 대비 상당한 성능 향상을 보였다(예: AndroidWorld에서 +12.0%, AITW에서 +23.8%). 이는 오프라인 학습 효율성과 온라인 다단계 추론 능력 사이의 격차를 크게 좁혀나가는 데 있어 중요한 진전을 보여준다. 코드는 다음 링크에서 공개되어 있다: https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp