3D 디퓨저 액터: 3D 시각 표현을 활용한 정책 디퓨전

로봇 조작을 위해 확산 정책(diffusion policies)과 3D 장면 표현(3D scene representations)을 결합한다. 확산 정책은 조건부 확산 모델을 활용하여 로봇 및 환경 상태에 조건부로 작동 분포를 학습한다. 최근 이러한 방법은 결정론적 방법과 다른 상태 조건부 작동 분포 학습 기법들을 모두 능가함이 입증되었다. 3D 로봇 정책은 센서로 측정한 깊이 정보를 기반으로 단일 또는 다중 카메라 시점에서 수집한 3D 장면 특징 표현을 활용한다. 이러한 방법은 카메라 시점이 달라져도 2D 대비 더 우수한 일반화 성능을 보였다. 본 연구에서는 이러한 두 가지 접근법을 통합하여, 언어 지시어를 입력받아 시각적 장면에 대한 3D 표현을 구축하고, 이를 기반으로 로봇의 엔드 에펙터(end-effector)에 대한 3D 회전과 평행 이동을 반복적으로 노이즈 제거하는 신경 정책 아키텍처인 3D Diffuser Actor를 제안한다. 각 노이즈 제거 반복 과정에서 본 모델은 엔드 에펙터의 자세 추정치를 3D 장면 토큰으로 표현하고, 다른 3D 시각적 및 언어 토큰들과의 3D 상대적 어텐션(3D relative attention)을 활용하여 각 토큰에 대한 3D 이동 및 회전 오차를 예측한다. 3D Diffuser Actor는 다중 시점 설정에서 기존 최고 성능(SOTA) 대비 절대 성능 향상 16.3%를 기록하며 RLBench 벤치마크에서 새로운 최고 기록을 세웠고, 단일 시점 설정에서도 절대 성능 향상 13.1%를 달성했다. CALVIN 벤치마크에서는 제로샷(Zero-shot) 비전형 장면 일반화 설정에서 기존 SOTA를 상회하여 성공적으로 수행한 작업 수가 평균 0.2건 더 많아져 상대적 성능 향상 7%를 기록했다. 또한, 몇 가지 예시만으로도 실제 환경에서도 정상적으로 작동함을 확인하였다. 본 연구는 3D 장면 특징화 및 3D 상대적 어텐션과 같은 아키텍처 설계 선택 사항에 대한 분석을 수행하여, 이들이 모두 일반화 성능 향상에 기여함을 보였다. 연구 결과는 3D 장면 표현과 강력한 생성 모델링 기법이 예시 기반 로봇 학습의 효율성 향상에 핵심 요소임을 시사한다.