Command Palette

Search for a command to run...

6시간 전

VIRAL: 인간형 로코-맨이푸레이션을 위한 대규모 시각적 시뮬레이션-실세계 전이

VIRAL: 인간형 로코-맨이푸레이션을 위한 대규모 시각적 시뮬레이션-실세계 전이

초록

현실 세계에서 인간형 로봇을 활용하기 위한 주요 장벽은 자율적인 이동-조작 능력의 부족이다. 본 연구에서는 인간형 로봇의 이동-조작 능력을 전적으로 시뮬레이션 환경에서 학습하고, 실제 하드웨어에 ‘제로샷(Zero-shot)’으로 배포할 수 있는 시각 기반의 시뮬레이션에서 실제 환경으로(Sim-to-Real) 전이 프레임워크인 VIRAL을 제안한다. VIRAL은 교사-학생 설계를 따르며, 전체 상태 정보를 이용하는 우월한 강화학습(Reinforcement Learning, RL) 교사가 델타 동작 공간과 참조 상태 초기화를 활용하여 장기적인 이동-조작 작업을 학습한다. 이후, 대규모 시뮬레이션과 타일링 렌더링을 통해 교사의 정책을 시각 기반의 학생 정책으로 정제하며, 온라인 DAgger와 행동 클로닝의 혼합 방법으로 학습한다. 우리는 계산 규모가 매우 중요하다는 것을 발견했다: 시뮬레이션을 수십 개의 GPU(최대 64개)로 확장하면 교사 및 학생 모두의 학습이 안정적으로 이루어지지만, 계산 자원이 제한된 환경에서는 학습이 종종 실패한다. 시뮬레이션과 실제 환경 간의 격차를 줄이기 위해, VIRAL은 조명, 재질, 카메라 파라미터, 이미지 품질, 센서 지연 시간 등에 대한 대규모 시각 도메인 랜덤화를 적용하고, 유연한 손과 카메라의 실제-시뮬레이션 정렬을 함께 활용한다. 이 프레임워크는 Unitree G1 인간형 로봇에 배포되었으며, RGB 기반의 최종 정책은 최대 54회에 걸쳐 지속적인 이동-조작 작업을 수행하며, 실제 환경에서의 미세 조정 없이 다양한 공간적 및 시각적 변형에 일반화되며, 전문가 수준의 원격 조작 성능에 근접한다. 광범위한 Ablation 실험을 통해 RGB 기반 인간형 이동-조작이 실용적으로 성공하기 위해 필요한 핵심 설계 선택 사항들을 체계적으로 분석하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp