11일 전
3D 디퓨전 정책: 간단한 3D 표현을 통한 일반화 가능한 비주얼모터 정책 학습
Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu

초록
다이렉트 학습은 로봇에게 정교한 기술을 효율적으로 가르치는 방법을 제공하지만, 복잡한 기술을 견고하고 일반화 가능한 방식으로 학습하기 위해서는 대량의 인간 시범 데이터가 필요하다는 점이 도전 과제로 남아 있다. 이러한 문제를 해결하기 위해, 본 연구에서는 확산 정책(확산 정책은 조건부 행동 생성 모델의 한 종류)에 3차원 시각 표현의 강력한 능력을 통합한 새로운 시각적 다이렉트 학습 방법인 3D 확산 정책(DP3)을 제안한다. DP3의 핵심 설계는 효율적인 포인트 인코더를 통해 희박한 포인트 클라우드에서 추출한 컴팩트한 3차원 시각 표현을 활용하는 것이다. 72개의 시뮬레이션 작업을 대상으로 한 실험에서 DP3는 단 10회의 시범만으로 대부분의 작업을 성공적으로 수행했으며, 기존 베이스라인 대비 24.2%의 상대적 성능 향상을 달성했다. 실제 로봇 4개의 작업에 대한 실험에서도 DP3는 각 작업에 대해 단 40회의 시범만으로 높은 정확도를 유지하며 85%의 높은 성공률을 보였으며, 공간, 시점, 외형, 인스턴스 등 다양한 측면에서 뛰어난 일반화 능력을 입증했다. 흥미롭게도 실제 로봇 실험에서 DP3는 기존 베이스라인 방법들과 달리 안전 기준을 자주 위반하지 않아 인간의 개입이 거의 필요 없었다. 본 연구의 광범위한 평가는 실제 세계에서 로봇 학습에 있어 3차원 표현의 핵심적 중요성을 강조한다. 영상, 코드 및 데이터는 https://3d-diffusion-policy.github.io 에서 확인할 수 있다.