대규모 비디오 생성 전학습을 통한 시각적 로봇 조작의 잠재력 개척

생성형 사전 훈련 모델은 언어 및 비전 영역에서 유용한 표현을 학습함으로써 놀라운 효과를 보여왔다. 본 논문에서는 이러한 효과의 적용 범위를 확장하여, 대규모 영상 생성형 사전 훈련을 통해 시각 기반 로봇 조작이 크게 이익을 볼 수 있음을 보여준다. 우리는 다중 작업 언어 조건부 시각적 로봇 조작을 위해 설계된 간단한 GPT 스타일 모델인 GR-1을 제안한다. GR-1은 언어 지시사항, 관측 이미지 시퀀스, 로봇 상태 시퀀스를 입력으로 받아, 종단 간(end-to-end) 방식으로 로봇 동작과 미래 이미지를 예측한다. 유연한 설계 덕분에 GR-1은 대규모 영상 데이터셋에서 사전 훈련한 후, 로봇 데이터에 대해 원활하게 미세 조정(fine-tuning)이 가능하다. 우리는 도전적인 CALVIN 벤치마크와 실제 로봇 환경에서 광범위한 실험을 수행하였다. CALVIN 벤치마크에서 제안한 방법은 최첨단 기준 방법들을 능가하며, 성공률을 88.9%에서 94.9%로 향상시켰다. 제로샷(Zero-shot) 미사용 장면 일반화 설정에서는 성공률을 53.3%에서 85.4%로 개선하였다. 실제 로봇 실험에서도 GR-1은 기준 방법들을 능가하며, 미사용 장면과 물체에 대한 일반화 가능성이 높은 잠재력을 보였다. 본 연구는 대규모 영상 생성형 사전 훈련을 보강한 통합적인 GPT 스타일 트랜스포머가 다중 작업 시각적 로봇 조작에 뛰어난 일반화 능력을 보임을 최초로 입증하였다. 프로젝트 페이지: https://GR1-Manipulation.github.io