2달 전
일반화 가능한 시각-언어 로봇 조작을 향하여: 벤치마크와 LLM 안내 3D 정책
Ricardo Garcia; Shizhe Chen; Cordelia Schmid

초록
언어 조건부 로봇 정책을 새로운 작업에 일반화하는 것은 적절한 시뮬레이션 벤치마크 부족으로 인해 여전히 큰 도전과제입니다. 본 논문에서는 이 문제를 해결하기 위해 GemBench라는 새로운 벤치마크를 소개합니다. GemBench는 비전-언어 로봇 조작 정책의 일반화 능력을 평가하기 위한 것으로, 7개의 일반적인 행동 원시형태와 4단계의 일반화 수준을 포함하며, 이는 새로운 배치, 강체 및 관절 객체, 그리고 복잡한 장기적 작업을 포괄합니다. 우리는 GemBench에서 최신 접근법들을 평가하고, 또한 새로운 방법을 제안합니다. 우리의 접근 방식인 3D-LOTUS는 언어 조건부로 동작 예측을 수행하기 위해 풍부한 3D 정보를 활용합니다. 3D-LOTUS는 이미 보았던 작업에서 효율성과 성능 면에서 뛰어나지만, 새로운 작업에서는 어려움을 겪습니다. 이를 해결하기 위해, 우리는 3D-LOTUS의 운동 계획 능력과 LLMs(대형 언어 모델)의 작업 계획 능력, 그리고 VLMs(비전-언어 모델)의 객체 지정 정확성을 통합한 프레임워크인 3D-LOTUS++를 제시합니다. 3D-LOTUS++는 GemBench의 새로운 작업에서 최고 수준의 성능을 달성하여 로봇 조작 분야에서 일반화에 대한 새로운 기준을 설정하였습니다. 벤치마크, 코드 및 학습된 모델은 https://www.di.ens.fr/willow/research/gembench/ 에서 확인할 수 있습니다.