Command Palette

Search for a command to run...

한 달 전

RLinf-VLA: VLA+RL 학습을 위한 통합적이고 효율적인 프레임워크

RLinf-VLA: VLA+RL 학습을 위한 통합적이고 효율적인 프레임워크

초록

시각과 언어 기반 모델의 최근 발전은 다중모달 이해, 추론 및 생성 능력을 크게 향상시켰으며, 이에 따라 시각-언어-행동(VLA) 모델을 통해 이러한 능력을 신체화된 환경으로 확장하려는 관심이 급증하고 있다. 그러나 대부분의 VLA 모델은 여전히 감독적 미세조정(SFT) 방식으로 학습되며, 오류 누적이 발생함에 따라 분포 변화에 대한 일반화 능력이 부족하다는 한계가 있다. 강화학습(RL)은 상호작용을 통해 작업 성능을 직접 최적화할 수 있다는 점에서 매력적인 대안이지만, 기존의 시도는 분산되어 있으며 모델 아키텍처와 알고리즘 설계 간 공정하고 체계적인 비교를 위한 통합 플랫폼이 부족한 실정이다. 이러한 격차를 해소하기 위해, 본 연구는 VLA 모델의 확장 가능한 강화학습(RL) 훈련을 위한 통합적이고 효율적인 프레임워크인 RLinf-VLA를 제안한다. 이 시스템은 RL+VLA 훈련에서 렌더링, 훈련, 추론을 통합하는 데 직면한 도전 과제를 해결하기 위해 매우 유연한 자원 할당 설계를 채택하고 있다. 특히 GPU 병렬화된 시뮬레이터에 대해, RLinf-VLA는 새로운 하이브리드 세밀한 파이프라인 할당 모드를 구현하여 훈련 속도를 최대 1.61배에서 1.88배까지 향상시켰다. 통합 인터페이스를 통해 RLinf-VLA는 다양한 VLA 아키텍처(예: OpenVLA, OpenVLA-OFT), 여러 강화학습 알고리즘(예: PPO, GRPO), 그리고 다양한 시뮬레이터(예: ManiSkill, LIBERO)를 원활하게 지원한다. 시뮬레이션 환경에서 통합된 모델은 130개의 LIBERO 작업에서 평균 성능 98.11%, 25개의 ManiSkill 작업에서 97.66%의 성능을 달성하였다. 실증적 성능 외에도, 본 연구는 VLA 훈련에 강화학습을 적용하기 위한 최적의 실무 지침을 도출하였으며, 이 통합 과정에서 나타나는 새로운 패턴에 대한 통찰을 제공한다. 더불어, 실제 프랭카 로봇에 대한 초기 배포 결과를 제시하며, SFT로 학습된 정책보다 RL로 학습된 정책이 더 뛰어난 일반화 능력을 보임을 확인하였다. 우리는 RLinf-VLA가 신체화된 지능 연구의 가속화와 표준화를 위한 기반 플랫폼이 될 것으로 기대한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
RLinf-VLA: VLA+RL 학습을 위한 통합적이고 효율적인 프레임워크 | 연구 논문 | HyperAI초신경