16일 전
변동 불변 확산 정책
Dian Wang, Stephen Hart, David Surovik, Tarik Kelestemur, Haojie Huang, Haibo Zhao, Mark Yeatman, Jiuguang Wang, Robin Walters, Robert Platt

초록
최근 연구에서 행동 클로닝(behavior cloning)에서 발생하는 다중모달 분포를 학습하는 데 있어 확산 모델(diffusion models)이 효과적인 접근법임이 밝혀졌다. 그러나 이러한 접근법의 단점은 명시적 정책(explicit policy)을 학습하는 것보다 훨씬 복잡한 노이즈 제거 함수(denoising function)를 학습해야 한다는 점이다. 본 연구에서는 도메인의 대칭성을 활용하여 노이즈 제거 함수의 샘플 효율성과 일반화 능력을 향상시키는 새로운 확산 정책 학습 방법인 '동변성 확산 정책(Equivariant Diffusion Policy)'을 제안한다. 우리는 6-DoF(자유도) 전체 제어의 $\mathrm{SO}(2)$ 대칭성에 대해 이론적으로 분석하고, 확산 모델이 언제 $\mathrm{SO}(2)$-동변성(equivariant)이 되는지를 규명한다. 또한 MimicGen 내 12개의 시뮬레이션 작업 세트에서 제안된 방법을 실증적으로 평가한 결과, 기준선인 확산 정책(Diffusion Policy)에 비해 평균적으로 성공률이 21.9% 높은 성능을 달성함을 보였다. 더불어 실제 시스템에서도 제안된 방법을 평가하여, 비교적 적은 학습 샘플로도 효과적인 정책을 학습할 수 있음을 입증하였으며, 기준선 확산 정책은 이러한 성능을 달성하지 못함을 확인하였다.