Command Palette
Search for a command to run...
Heeseong Shin Byeongho Heo Dongyoon Han Seungryong Kim Taekyung Kim

초록
사전 훈련된 시각적 표현은 이mitation 학습의 발전에 크게 기여해 왔으나, 정책 학습 과정에서 동결된 상태로 유지되면서 일반적인 작업에 대한 적합성(타스크-아그노스틱)을 가진 경우가 많다. 본 연구에서는 사전 훈련된 텍스트-이미지 확산 모델을 활용하여, 모델 자체의 미세 조정 없이 로봇 제어를 위한 태스크 적응형 시각적 표현을 얻는 방안을 탐구한다. 그러나 우리는 기존의 시각 영역에서 성공한 텍스트 조건을 그대로 적용하는 방식이 제어 과제에서는 미미하거나 심지어 부정적인 성과를 낳는다는 점을 발견하였다. 이는 확산 모델의 훈련 데이터와 로봇 제어 환경 사이에 존재하는 도메인 갭(domain gap)이 원인임을 확인하였으며, 이에 따라 제어에 필요한 특수하고 동적인 시각 정보를 고려한 조건이 필요함을 주장한다. 이를 위해 우리는 제어 환경에 적응하는 학습 가능한 태스크 프롬프트(task prompts)와 프레임 별 세부 정보를 포착하는 시각적 프롬프트를 도입한 ORCA를 제안한다. 본 연구에서 새로 제안한 조건을 통해 태스크 적응형 표현을 효과적으로 유도함으로써, 다양한 로봇 제어 벤치마크에서 최신 기술(SOTA) 수준의 성능을 달성하였으며, 기존 방법들에 비해 뚜렷한 성능 향상을 보였다.