11일 전

로보유니뷰: 로봇 조작을 위한 통합 시각-언어 표현을 갖춘 시각-언어 모델

Fanfan Liu, Feng Yan, Liming Zheng, Chengjian Feng, Yiyang Huang, Lin Ma
로보유니뷰: 로봇 조작을 위한 통합 시각-언어 표현을 갖춘 시각-언어 모델
초록

로봇 조작을 위한 시각-언어 모델(Vision-Language Models, VLMs)의 활용은 새로운 패러다임을 제시하며, 모델이 새로운 객체와 지시어에 대해 일반화할 수 있는 능력을 향상시키는 것을 목표로 한다. 그러나 카메라 사양과 장착 위치의 차이로 인해 기존 방법들은 다양한 로봇 플랫폼 간에 성능 차이가 크게 나타나는 문제가 있다. 이러한 도전 과제를 해결하기 위해 본 논문에서는 시각적 특징 추출과 동작 학습을 분리하는 혁신적인 접근 방식인 RoboUniView를 제안한다. 먼저, 쉽게 확보할 수 있는 데이터를 기반으로 사전 학습을 통해 다중 시점 관점에서 통합된 시각적 표현(unified view representation)을 학습하고, 이후 이 통합된 시각 표현에서 동작을 도출하여 로봇 조작을 제어한다. 이 통합된 시각 표현은 물리 세계를 더 정확히 반영하며, 로봇 플랫폼의 카메라 파라미터에 제약을 받지 않는다. 이러한 방법론 덕분에, 우리는 과제가 까다로운 CALVIN 벤치마크에서 최신 기술 수준의 성능을 달성하였으며, $D \to D$ 설정에서 성공률을 93.0%에서 96.2%로, $ABC \to D$ 설정에서는 92.2%에서 94.2%로 향상시켰다. 더불어, 제안한 모델은 뛰어난 적응성과 유연성을 보였다. 즉, 미지의 카메라 파라미터 환경에서도 높은 성능을 유지하며, 다양한 카메라 파라미터를 가진 여러 데이터셋을 활용할 수 있고, 데이터셋 간의 종합적인 다중 작업 학습도 가능하다. 코드는 재현을 위해 제공되며, GitHub 링크는 다음과 같다: https://github.com/liufanfanlff/RoboUniview