Command Palette

Search for a command to run...

13일 전

WMPO: 시각-언어-행동 모델을 위한 세계 모델 기반 정책 최적화

Fangqi Zhu Zhengyang Yan Zicong Hong Quanxin Shou Xiao Ma Song Guo

WMPO: 시각-언어-행동 모델을 위한 세계 모델 기반 정책 최적화

초록

시각-언어-행동(Vision-Language-Action, VLA) 모델은 일반 목적의 로봇 조작에 강력한 잠재력을 보여주고 있으나, 전문가의 시연에 의존하는 점이 실패로부터 학습하거나 자가 보정을 수행하는 능력을 제한한다. 강화학습(Reinforcement Learning, RL)은 물리적 환경과의 자가 개선형 상호작용을 통해 이러한 문제를 해결할 수 있으나, 실제 로봇에서는 높은 샘플 복잡도 문제를 겪는다. 본 연구에서는 실제 환경과의 상호작용 없이 온폴리시(On-policy) VLA 강화학습을 수행할 수 있는 체계적인 프레임워크인 월드모델 기반 정책 최적화(World-Model-based Policy Optimization, WMPO)를 제안한다. 기존에 널리 사용되는 잠재적 월드모델과 달리, WMPO는 웹 규모의 이미지로 사전 훈련된 VLA 특징과 일치하는 픽셀 기반 예측에 초점을 맞춘다. 특히 WMPO는 정책이 온폴리시 GRPO(Generalized Reward Policy Optimization)를 수행할 수 있도록 하여, 흔히 사용되는 오프폴리시 방법보다 더 뛰어난 성능을 제공한다. 시뮬레이션 및 실제 로봇 환경에서 실시한 광범위한 실험을 통해 WMPO가 (i) 샘플 효율성을 크게 향상시키며, (ii) 더 우수한 종합 성능을 달성하고, (iii) 자가 보정과 같은 급성(emergent) 행동을 보이며, (iv) 강력한 일반화 능력과 평생 학습(lifelong learning) 능력을 갖춘다는 점을 입증하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
WMPO: 시각-언어-행동 모델을 위한 세계 모델 기반 정책 최적화 | 연구 논문 | HyperAI초신경