2달 전

생성 이미지作为行动模型请注意，"作为"在韩文中通常翻译为"으로서"或"로서의"，但根据上下文的不同，可能需要调整。以下是更准确的翻译： 생성 이미지를 행동 모델로 사용

Mohit Shridhar; Yat Long Lo; Stephen James

초록

이미지 생성 확산 모델은 이미지 편집 및 새로운 시점 합성 등의 새로운 기능을 활용하기 위해 미세 조정(fine-tuning)되었습니다. 비주얼-모터 제어를 위한 이미지 생성 모델도 마찬가지로 활용할 수 있을까요? 우리는 GENIMA라는 행동 복제 에이전트를 소개합니다. 이 에이전트는 Stable Diffusion을 RGB 이미지에서 '관절 동작 그리기'의 목표로 미세 조정하여 사용합니다. 이러한 이미지는 시각 목표를 관절 위치 시퀀스로 매핑하는 컨트롤러에 입력됩니다. 우리는 GENIMA를 25개의 RLBench 태스크와 9개의 실제 세계 조작 태스크에서 연구했습니다. 결과적으로, 동작을 이미지 공간으로 변환함으로써 인터넷 사전 학습된 확산 모델은 특히 장면 섭동에 대한 강건성과 새로운 객체에 대한 일반화 능력 측면에서 최신 비주얼-모터 접근 방식보다 우수한 정책을 생성할 수 있음을 발견했습니다. 또한 우리의 방법은 깊이, 키포인트, 또는 경로 계획자 등의 사전 지식(priors) 없이도 3D 에이전트와 경쟁력을 갖추고 있습니다.

생성 이미지作为行动模型 请注意，"作为"在韩文中通常翻译为"으로서"或"로서의"，但根据上下文的不同，可能需要调整。以下是更准确的翻译： 생성 이미지를 행동 모델로 사용

생성 이미지作为行动模型请注意，"作为"在韩文中通常翻译为"으로서"或"로서의"，但根据上下文的不同，可能需要调整。以下是更准确的翻译： 생성 이미지를 행동 모델로 사용