다중 작업 학습을 위한 전문가 디노이저의 혼합을 활용한 효율적인 디퓨전 트랜스포머 정책

확산 정책(Diffusion Policies)은 모방 학습(Imitation Learning) 분야에서 널리 사용되며, 다중 모달성과 비연속적인 행동을 생성할 수 있는 여러 매력적인 특성을 지니고 있다. 모델이 더 복잡한 능력을 포착하기 위해 점점 더 커지면서 최근의 스케일링 법칙에 따라 계산적 요구량도 급증하고 있다. 따라서 현재의 아키텍처를 그대로 유지할 경우 계산적 장벽이 발생할 것이다. 이러한 문제를 해결하기 위해, 우리는 모방 학습을 위한 새로운 정책으로 '노이즈 제거 전문가 혼합(Mixture-of-Denoising Experts, MoDE)'을 제안한다. MoDE는 기존의 트랜스포머 기반 확산 정책보다 뛰어난 성능을 보이며, 희소 전문가(sparse experts)와 노이즈 조건부 라우팅(noise-conditioned routing)를 통해 파라미터 효율적인 확장이 가능하다. 전문가 캐싱을 통해 활성 파라미터를 40% 감소시키고 추론 비용을 90% 절감할 수 있다. 본 연구의 아키텍처는 이러한 효율적인 확장성과 노이즈 조건부 자기 주의(self-attention) 메커니즘을 결합하여, 다양한 노이즈 수준에서 보다 효과적인 노이즈 제거를 가능하게 한다. MoDE는 CALVIN과 LIBERO를 포함한 네 가지 주요 모방 학습 벤치마크에서 총 134개의 작업에서 최신 기술(SOTA) 성능을 달성하였다. 특히, 다양한 로보틱스 데이터를 기반으로 MoDE를 사전 학습한 결과, CALVIN ABC에서 4.01, LIBERO-90에서 0.95의 성과를 기록하였다. 이는 4개 벤치마크에서 CNN 기반 및 트랜스포머 기반 확산 정책을 평균 57% 이상 능가하며, 기존 확산 트랜스포머 아키텍처에 비해 90% 적은 FLOPs와 더 적은 활성 파라미터를 사용하였다. 더불어, MoDE의 구성 요소에 대한 철저한 아블레이션 연구를 수행하여, 확산 정책을 위한 효율적이고 확장 가능한 트랜스포머 아키텍처 설계에 대한 통찰을 제공한다. 코드 및 시연 자료는 다음 링크에서 확인할 수 있다: https://mbreuss.github.io/MoDE_Diffusion_Policy/.