10일 전
CodeDiffuser: 주의력 강화 확산 정책을 통한 VLM 생성 코드를 활용한 지시어 모호성 해결
Guang Yin, Yitong Li, Yixuan Wang, Dale McConachie, Paarth Shah, Kunimatsu Hashimoto, Huan Zhang, Katherine Liu, Yunzhu Li

초록
로봇 조작 작업을 위한 자연어 지시문은 종종 모호성과 불명확성을 나타냅니다. 예를 들어, "머그 트리에 머그를 걸어라"라는 지시문은 여러 개의 머그와 가지가 있을 경우 여러 가지 올바른 행동이 포함될 수 있습니다. 기존의 언어 조건부 정책들은 일반적으로 고수준의 의미 이해와 저수준의 행동 생성을 동시에 처리하는 엔드투엔드 모델에 의존하여, 이는 모듈성과 해석 가능성 부족으로 인해 최적의 성능을 내지 못할 수 있습니다. 이러한 도전 과제를 해결하기 위해, 잠재적으로 모호한 자연어로 작업을 지정할 수 있는 새로운 로봇 조작 프레임워크를 소개합니다. 이 프레임워크는 자연어 지시문에서 추상적인 개념을 해석하기 위해 비전-언어 모델(Vision-Language Model, VLM)을 사용하며, 작업별 코드를 생성합니다. 이 코드는 해석 가능하고 실행 가능한 중간 표현입니다. 생성된 코드는 인식 모듈과 연계하여 공간적 정보와 의미론적 정보를 통합하여 작업 관련 영역을 강조하는 3D 주의 맵(attention map)을 생성합니다. 이를 통해 지시문의 모호성을 효과적으로 해결할 수 있습니다. 광범위한 실험을 통해 현재 모방 학습 방법들의 주요 제한 사항, 예를 들어 언어 및 환경 변동에 대한 적응력 부족 등을 확인하였습니다. 우리는 우리의 접근 방식이 언어 모호성, 접촉이 많은 조작 작업, 그리고 다중 객체 상호 작용이 포함된 어려운 조작 작업에서 뛰어난 성능을 보임을 입증하였습니다.