15일 전

옥토: 오픈소스 일반화 로봇 정책

Octo Model Team, Dibya Ghosh, Homer Walke, Karl Pertsch, Kevin Black, Oier Mees, Sudeep Dasari, Joey Hejna, Tobias Kreiman, Charles Xu, Jianlan Luo, You Liang Tan, Pannag Sanketi, Quan Vuong, Ted Xiao, Dorsa Sadigh, Chelsea Finn, Sergey Levine
옥토: 오픈소스 일반화 로봇 정책
초록

다양한 로봇 데이터셋으로 사전 훈련된 대규모 정책은 로봇 학습의 패러다임을 변화시킬 잠재력을 지닌다. 새로운 정책을 처음부터 훈련하는 대신, 이러한 일반화된 로봇 정책은 적은 양의 도메인 내 데이터만으로도 미세조정(finetuning)이 가능하면서도 광범위한 일반화 성능을 발휘할 수 있다. 그러나 다양한 로봇 학습 시나리오, 환경, 작업에 걸쳐 널리 적용되기 위해서는, 이러한 정책은 다양한 센서와 행동 공간을 처리할 수 있어야 하며, 일반적으로 사용되는 다양한 로봇 플랫폼을 지원해야 하며, 새로운 도메인으로의 미세조정이 쉽게且 효율적으로 이루어져야 한다. 본 연구에서는 로봇 조작을 위한 오픈소스이며 널리 적용 가능한 일반화된 정책을 개발하기 위한 기반을 마련하고자 한다. 첫 번째 단계로, 지금까지 가장 큰 로봇 조작 데이터셋인 Open X-Embodiment 데이터셋에서 수집된 80만 개의 트레이젝터리(trajectory)를 기반으로 훈련된 대규모 트랜스포머 기반 정책인 Octo를 제안한다. Octo는 언어 명령어나 목표 이미지를 통해 지시받을 수 있으며, 일반 소비자용 GPU에서 몇 시간 내에 새로운 감지 입력과 행동 공간을 가진 로봇 설정으로 효과적으로 미세조정이 가능하다. 9개의 로봇 플랫폼에서 수행한 실험을 통해, Octo가 새로운 관측 공간과 행동 공간으로의 미세조정에 효과적인 정책 초기화(initialization) 역할을 할 수 있음을 입증하였다. 또한, 아키텍처부터 훈련 데이터에 이르기까지 Octo 모델의 설계 결정에 대한 철저한 아블레이션(ablative) 분석을 수행하여, 향후 일반화된 로봇 모델을 구축하기 위한 연구 방향을 제시하였다.

옥토: 오픈소스 일반화 로봇 정책 | 최신 연구 논문 | HyperAI초신경