16일 전

Act3D: 다중 작업 로봇 조작을 위한 3D 특징 필드 트랜스포머

Theophile Gervet, Zhou Xian, Nikolaos Gkanatsios, Katerina Fragkiadaki
Act3D: 다중 작업 로봇 조작을 위한 3D 특징 필드 트랜스포머
초록

3D 인지 표현은 가림막을 쉽게 인코딩하고 공간적 추론을 단순화하므로 로봇 조작에 적합하다. 많은 조작 작업은 엔드 에펙터 자세 예측에 높은 공간 정밀도를 요구하며, 이는 일반적으로 계산 비용이 큰 고해상도 3D 특징 격자를 필요로 한다. 결과적으로 대부분의 조작 정책은 3D 유도 편향을 포기하고 2D에서 직접 작동한다. 본 논문에서는 작업의 성격에 따라 해상도가 자동 조절되는 3D 특징 필드를 사용하여 로봇의 작업 공간을 표현하는 조작 정책 트랜스포머인 Act3D를 제안한다. 이 모델은 센서로 측정한 깊이 정보를 이용해 사전 훈련된 2D 특징을 3D로 상승시키며, 이를 주목하여 샘플링된 3D 점들의 특징을 계산한다. Act3D는 거친 단계에서 세밀한 단계로 나누어 3D 점 격자를 샘플링하고, 상대 위치 주목(attention)을 사용해 특징화하며, 다음 샘플링 라운드에서 집중할 위치를 선택한다. 이를 통해 고해상도의 3D 동작 맵을 효율적으로 계산할 수 있다. Act3D는 기존의 SOTA 2D 다중 시점 정책보다 74개의 RLBench 작업에서 10%의 절대적 성능 향상을 달성했으며, 기존의 SOTA 3D 정책보다는 3배 적은 계산량으로 22%의 절대적 성능 향상을 기록하며, RL-Bench라는 확립된 조작 기준 테스트에서 새로운 최고 성능을 수립했다. 또한 제거 실험을 통해 상대 공간 주목의 중요성, 대규모 비전-언어 사전 훈련된 2D 백본의 역할, 거친 단계에서 세밀한 단계로 이어지는 주목 간 가중치 공유의 중요성을 정량적으로 분석하였다. 코드와 영상은 프로젝트 웹사이트에서 확인할 수 있다: https://act3d.github.io/.

Act3D: 다중 작업 로봇 조작을 위한 3D 특징 필드 트랜스포머 | 최신 연구 논문 | HyperAI초신경