16일 전

RT-2: 시각-언어-행동 모델이 웹 지식을 로봇 제어로 전이한다

Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, Brianna Zitkovich
RT-2: 시각-언어-행동 모델이 웹 지식을 로봇 제어로 전이한다
초록

인터넷 규모의 데이터로 훈련된 시각-언어 모델이 엔드투엔드 로봇 제어에 직접 통합되어 일반화 성능을 향상시키고 잠재적인 의미적 추론 능력을 발현할 수 있는 방법을 연구한다. 우리의 목표는 단일한 엔드투엔드 훈련 모델이 로봇 관측값을 행동으로 매핑하는 능력을 학습하면서도, 웹에서 수집한 대규모 언어 및 시각-언어 데이터에 대한 사전 훈련의 이점을 동시에 누릴 수 있도록 하는 것이다. 이를 위해, 최신의 시각-언어 모델을 로봇 궤적 데이터와 인터넷 규모의 시각-언어 작업(예: 시각적 질의 응답)에 동시에 공동 미세조정(fine-tuning)하는 방안을 제안한다. 다른 접근 방식과 달리, 본 연구는 이 목표를 달성하기 위한 단순하고 일반적인 방법론을 제시한다. 즉, 자연어 응답과 로봇 행동을 동일한 형식에 맞추기 위해 행동을 텍스트 토큰으로 표현하고, 자연어 토큰과 동일한 방식으로 모델의 훈련 데이터 세트에 직접 포함시킨다. 이러한 모델 유형을 '시각-언어-행동 모델(Vision-Language-Action model, VLA)'이라고 부르며, 이를 구현한 예시로 RT-2를 제안한다. 광범위한 평가(6,000회 이상의 평가 시도) 결과, 본 연구의 접근 방식은 고성능 로봇 정책을 도출할 수 있으며, RT-2가 인터넷 규모의 훈련을 통해 다양한 잠재적 능력을 획득하게 한다는 점을 입증했다. 이는 새로운 물체에 대한 훨씬 뛰어난 일반화 능력, 로봇 훈련 데이터에 존재하지 않은 명령어(예: 특정 숫자나 아이콘 위에 물체를 놓기)를 해석할 수 있는 능력, 사용자 명령에 대해 기초적인 추론을 수행할 수 있는 능력(예: 가장 작거나 가장 큰 물체, 또는 다른 물체에 가장 가까운 물체를 선택하기)을 포함한다. 또한 사고의 흐름(Chain of Thought) 추론을 도입함으로써 RT-2가 다단계 의미적 추론을 수행할 수 있음을 보여주며, 예를 들어 대체 도구로 사용할 수 있는 돌(예: 망치로 사용 가능한 물체)을 식별하거나, 피로한 사람에게 적합한 음료(예: 에너지 드링크)를 판단하는 등의 복잡한 작업 수행이 가능하다는 점을 입증하였다.

RT-2: 시각-언어-행동 모델이 웹 지식을 로봇 제어로 전이한다 | 최신 연구 논문 | HyperAI초신경