17일 전

대규모 비디오 생성 전학습을 통한 시각적 로봇 조작의 잠재력 개척

Hongtao Wu, Ya Jing, Chilam Cheang, Guangzeng Chen, Jiafeng Xu, Xinghang Li, Minghuan Liu, Hang Li, Tao Kong
대규모 비디오 생성 전학습을 통한 시각적 로봇 조작의 잠재력 개척
초록

생성형 사전 훈련 모델은 언어 및 비전 영역에서 유용한 표현을 학습함으로써 놀라운 효과를 보여왔다. 본 논문에서는 이러한 효과의 적용 범위를 확장하여, 대규모 영상 생성형 사전 훈련을 통해 시각 기반 로봇 조작이 크게 이익을 볼 수 있음을 보여준다. 우리는 다중 작업 언어 조건부 시각적 로봇 조작을 위해 설계된 간단한 GPT 스타일 모델인 GR-1을 제안한다. GR-1은 언어 지시사항, 관측 이미지 시퀀스, 로봇 상태 시퀀스를 입력으로 받아, 종단 간(end-to-end) 방식으로 로봇 동작과 미래 이미지를 예측한다. 유연한 설계 덕분에 GR-1은 대규모 영상 데이터셋에서 사전 훈련한 후, 로봇 데이터에 대해 원활하게 미세 조정(fine-tuning)이 가능하다. 우리는 도전적인 CALVIN 벤치마크와 실제 로봇 환경에서 광범위한 실험을 수행하였다. CALVIN 벤치마크에서 제안한 방법은 최첨단 기준 방법들을 능가하며, 성공률을 88.9%에서 94.9%로 향상시켰다. 제로샷(Zero-shot) 미사용 장면 일반화 설정에서는 성공률을 53.3%에서 85.4%로 개선하였다. 실제 로봇 실험에서도 GR-1은 기준 방법들을 능가하며, 미사용 장면과 물체에 대한 일반화 가능성이 높은 잠재력을 보였다. 본 연구는 대규모 영상 생성형 사전 훈련을 보강한 통합적인 GPT 스타일 트랜스포머가 다중 작업 시각적 로봇 조작에 뛰어난 일반화 능력을 보임을 최초로 입증하였다. 프로젝트 페이지: https://GR1-Manipulation.github.io