초록

생성형 월드 모델은 다양한 환경에서 시각운동 정책과의 상호작용을 시뮬레이션할 수 있는 큰 잠재력을 지닌다. 최첨단 영상 모델은 확장 가능하고 일반화 가능한 방식으로 현실적인 관측값과 환경 상호작용을 생성할 수 있다. 그러나 로봇 공학 분야에서 영상 모델의 활용은 주로 분포 내 평가(in-distribution evaluation)에 국한되어 왔다. 즉, 정책 학습 또는 기본 영상 모델의 미세조정에 사용된 시나리오와 유사한 상황에 한정된 것이다. 본 보고서에서는 영상 모델이 로봇 공학에서 정책 평가의 전 영역을 다룰 수 있음을 입증한다. 이는 정상적인 성능 평가부터 분포 외 일반화(OOD generalization), 물리적 및 의미적 안전성 탐색에 이르기까지 다양한 평가 사례를 포함한다. 우리는 최첨단 영상 기반 모델(Veo)을 기반으로 한 생성형 평가 시스템을 제안한다. 이 시스템은 로봇 동작 조건화와 다중 시점 일관성을 최적화하며, 생성형 이미지 편집 및 다중 시점 완성 기술을 통합하여 현실 세계 장면의 다양한 일반화 축을 따라 현실적인 변형을 합성할 수 있도록 설계되었다. 우리는 이 시스템이 영상 모델의 기본 능력을 유지함으로써, 새로운 상호작용 객체, 새로운 시각적 배경, 새로운 방해 요소를 포함하도록 편집된 장면을 정확하게 시뮬레이션할 수 있음을 입증한다. 이러한 정밀도는 정상 조건과 분포 외 조건에서 다양한 정책 간 상대적 성능을 정확히 예측하고, 다양한 일반화 축이 정책 성능에 미치는 상대적 영향을 분석하며, 물리적 또는 의미적 안전성 제약을 위반하는 행동을 노출시키기 위한 정책의 적대적 테스트(red teaming) 수행이 가능하게 한다. 이러한 능력을 검증하기 위해, 여덟 개의 Gemini Robotics 정책 체크포인트와 이중 수용기(manus)를 위한 다섯 가지 작업에 대해 1,600회 이상의 실제 환경 평가를 수행하였다.

소스 PDF