16일 전

변동 불변 확산 정책

Dian Wang, Stephen Hart, David Surovik, Tarik Kelestemur, Haojie Huang, Haibo Zhao, Mark Yeatman, Jiuguang Wang, Robin Walters, Robert Platt
변동 불변 확산 정책
초록

최근 연구에서 행동 클로닝(behavior cloning)에서 발생하는 다중모달 분포를 학습하는 데 있어 확산 모델(diffusion models)이 효과적인 접근법임이 밝혀졌다. 그러나 이러한 접근법의 단점은 명시적 정책(explicit policy)을 학습하는 것보다 훨씬 복잡한 노이즈 제거 함수(denoising function)를 학습해야 한다는 점이다. 본 연구에서는 도메인의 대칭성을 활용하여 노이즈 제거 함수의 샘플 효율성과 일반화 능력을 향상시키는 새로운 확산 정책 학습 방법인 '동변성 확산 정책(Equivariant Diffusion Policy)'을 제안한다. 우리는 6-DoF(자유도) 전체 제어의 $\mathrm{SO}(2)$ 대칭성에 대해 이론적으로 분석하고, 확산 모델이 언제 $\mathrm{SO}(2)$-동변성(equivariant)이 되는지를 규명한다. 또한 MimicGen 내 12개의 시뮬레이션 작업 세트에서 제안된 방법을 실증적으로 평가한 결과, 기준선인 확산 정책(Diffusion Policy)에 비해 평균적으로 성공률이 21.9% 높은 성능을 달성함을 보였다. 더불어 실제 시스템에서도 제안된 방법을 평가하여, 비교적 적은 학습 샘플로도 효과적인 정책을 학습할 수 있음을 입증하였으며, 기준선 확산 정책은 이러한 성능을 달성하지 못함을 확인하였다.

변동 불변 확산 정책 | 최신 연구 논문 | HyperAI초신경