11일 전
RVT: 3차원 객체 조작을 위한 로봇 뷰 변환기
Ankit Goyal, Jie Xu, Yijie Guo, Valts Blukis, Yu-Wei Chao, Dieter Fox

초록
3D 객체 조작의 경우, 명시적인 3D 표현을 구축하는 방법이 카메라 이미지에만 의존하는 방법보다 더 우수한 성능을 발휘합니다. 그러나 벡셀(Voxels)과 같은 명시적인 3D 표현을 사용할 경우 계산 비용이 크게 증가하여 확장성에 악영향을 미칩니다. 본 연구에서는 확장성과 정확도를 동시에 충족하는 다중 시점 트랜스포머인 RVT를 제안합니다. RVT의 주요 특징은 다양한 시점 간 정보를 통합하기 위한 어텐션 메커니즘과 로봇 작업 공간 주변의 가상 시점에서 카메라 입력을 재렌더링하는 것입니다. 시뮬레이션 실험에서 단일 RVT 모델이 18개의 RLBench 작업(총 249개의 작업 변형)에 대해 잘 작동하며, 기존 최고 성능 기법인 PerAct 대비 상대적 성공률이 26% 향상되었습니다. 또한 동일한 성능을 달성하기 위해 PerAct보다 36배 빠르게 학습되며, 추론 속도는 PerAct의 2.3배에 달합니다. 더 나아가 RVT는 각 작업당 단지 몇 개(약 10개)의 예시만으로도 실제 환경에서 다양한 조작 작업을 수행할 수 있습니다. 시각적 결과, 코드, 및 학습된 모델은 https://robotic-view-transformer.github.io/ 에 공개되어 있습니다.