11일 전
R3M: 로봇 조작을 위한 보편적인 시각 표현
Suraj Nair, Aravind Rajeswaran, Vikash Kumar, Chelsea Finn, Abhinav Gupta

초록
다양한 인간 영상 데이터를 기반으로 사전 훈련된 시각적 표현이 하류 로봇 조작 작업의 데이터 효율적인 학습을 어떻게 가능하게 하는지 연구한다. 구체적으로, 시간 대비 학습(Time-contrastive learning), 영상-언어 정렬(video-language alignment), 그리고 희소하고 컴팩트한 표현을 유도하기 위한 L1 페널티를 결합하여 Ego4D 인간 영상 데이터셋을 사용해 시각적 표현을 사전 훈련한다. 이로 생성된 표현 모델인 R3M는 하류 정책 학습을 위한 고정된 인지 모듈로 활용할 수 있다. 12개의 시뮬레이션 로봇 조작 작업에 걸쳐 평가한 결과, R3M는 초기 학습부터 시작하는 경우보다 작업 성공률을 20% 이상 향상시키며, CLIP이나 MoCo와 같은 최첨단 시각 표현 모델보다도 10% 이상 우수한 성능을 보였다. 더불어, R3M는 실제 혼잡한 아파트 환경에서 Franka Emika Panda 로봇 팔이 단 20개의 예시만으로 다양한 조작 작업을 학습할 수 있도록 가능하게 했다. 코드 및 사전 훈련된 모델은 https://tinyurl.com/robotr3m에서 제공된다.