Command Palette
Search for a command to run...

초록
시각-언어-행동(Vision-Language-Action, VLA) 모델은 다중 모달 입력을 기반으로 복잡한 작업을 이해하고 수행할 수 있도록 한다. 최근 연구에서는 감독 미세조정(Supervised Fine-Tuning, SFT)의 확장 과정에서 번거로운 데이터 수집을 자동화하기 위해 강화학습(Reinforcement Learning, RL)을 활용하는 방향으로 탐색하고 있으나, 흐름 기반(VLA) 모델(예: $π_0$, $π_{0.5}$)에 대규모 RL을 적용하는 것은 반복적인 노이즈 제거 과정에서 계산이 불가능한 행동 로그우도(likelihood)로 인해 여전히 도전 과제이다. 이 문제를 해결하기 위해 우리는 병렬 시뮬레이션 환경에서 흐름 기반 VLA를 훈련할 수 있는 오픈소스 프레임워크 $π_{\text{RL}}$을 제안한다. $π_{\text{RL}}$은 두 가지 강화학습 알고리즘을 구현한다. (1) {Flow-Noise}는 노이즈 제거 과정을 학습 가능한 노이즈 네트워크를 갖는 이산 시간 MDP(마르코프 결정 과정)로 모델링하여 정확한 로그우도 계산을 가능하게 한다. (2) {Flow-SDE}는 노이즈 제거 과정을 에이전트-환경 상호작용과 통합하여, ODE에서 SDE로의 변환 기법을 활용한 효율적인 RL 탐색을 위한 이중층 MDP 구조를 제안한다. 우리는 LIBERO 및 ManiSkill 벤치마크에서 $π_{\text{RL}}$의 성능을 평가하였다. LIBERO에서 $π_{\text{RL}}$은 소수 샘플 미세조정(SFT) 모델인 $π_0$와 $π_{0.5}$의 성능을 각각 57.6%에서 97.6%, 77.1%에서 98.3%로 향상시켰다. ManiSkill에서는 320개의 병렬 환경에서 $π_{\text{RL}}$을 훈련하여, 4352개의 픽앤플레이스 작업 전반에서 $π_0$의 성능을 41.6%에서 85.7%로, $π_{0.5}$는 40.0%에서 84.8%로 개선했으며, 이는 이질적인 시뮬레이션 환경 하에서도 확장 가능한 다중 작업 강화학습의 가능성을 입증한다. 종합적으로 $π_{\text{RL}}$은 SFT 모델 대비 뚜렷한 성능 향상과 더 강한 일반화 능력을 달성하였으며, 흐름 기반 VLA에 대한 온라인 강화학습의 효과성을 실험적으로 검증하였다.