2달 전

RVT-2: 적은 시연으로부터 정밀한 조작 학습

Ankit Goyal, Valts Blukis, Jie Xu, Yijie Guo, Yu-Wei Chao, Dieter Fox
RVT-2: 적은 시연으로부터 정밀한 조작 학습
초록

본 연구에서는 언어 지시에 따라 여러 3D 조작 작업을 수행할 수 있는 로봇 시스템의 구축 방법을 탐구합니다. 이러한 시스템은 산업 및 가정용 분야에서 유용하게 활용되기 위해서는 소수의 데모를 통해 새로운 작업을 학습하고 정확하게 해결할 수 있어야 합니다. PerAct와 RVT 등의 이전 연구들은 이 문제를 다루었으나, 종종 고정밀 작업에서 어려움을 겪었습니다. 우리는 이를 보완하여 더 효과적이고 정확하며 빠른 시스템을 만들기 위해 노력하였습니다. 아키텍처 및 시스템 수준의 개선점을 결합하여, 훈련 속도가 기존 RVT보다 6배 빠르고 추론 속도가 2배 빠른 다중 작업 3D 조작 모델인 RVT-2를 제안합니다. RVT-2는 RLBench에서 새로운 최신 성능(SOTA)을 달성하여 성공률이 65%에서 82%로 향상되었습니다. 또한 실제 환경에서도 RVT-2는 고정밀 작업, 예를 들어 플러그를 집어서 꽂는 작업 등을 단지 10개의 데모만으로 학습할 수 있습니다. 시각적인 결과, 코드 및 학습된 모델은 다음 링크에서 제공됩니다: https://robotic-view-transformer-2.github.io/.

RVT-2: 적은 시연으로부터 정밀한 조작 학습 | 최신 연구 논문 | HyperAI초신경