17일 전

PaLM-E: 몸체를 갖춘 다중모달 언어 모델

Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, Yevgen Chebotar, Pierre Sermanet, Daniel Duckworth, Sergey Levine, Vincent Vanhoucke, Karol Hausman, Marc Toussaint, Klaus Greff, Andy Zeng, Igor Mordatch, Pete Florence
PaLM-E: 몸체를 갖춘 다중모달 언어 모델
초록

대규모 언어 모델은 다양한 복잡한 작업에서 뛰어난 성능을 보인다. 그러나 로봇 공학 문제 등 실제 세계에서 일반적인 추론을 가능하게 하기 위해서는 ‘지식 기반(grounding)’이라는 도전 과제가 존재한다. 본 연구에서는 실제 세계의 연속적인 센서 모달리티를 언어 모델에 직접 통합함으로써 단어와 지각(percept) 간의 연결을 구축하는 ‘체화된 언어 모델(embodied language models)’을 제안한다. 본 모델의 입력은 시각 정보, 연속적인 상태 추정 정보, 텍스트 정보를 혼합한 다중 모달 문장 형태로 구성된다. 이러한 입력 인코딩은 사전 훈련된 대규모 언어 모델과 함께 종단 간(end-to-end)으로 훈련되며, 순차적 로봇 조작 계획, 시각 질문 응답, 캡션 생성 등 다양한 체화된 작업에 적용된다. 평가 결과, PaLM-E는 단일 대규모 체화된 다중 모달 모델로서 다양한 관측 모달리티, 다양한 체화된 환경에서 다양한 체화된 추론 작업을 수행할 수 있으며, 긍정적 전이 효과를 보인다. 즉, 인터넷 규모의 언어, 시각, 시각-언어 도메인에서의 다중 모달 통합 훈련을 통해 모델이 성능 향상을 얻는다. 가장 큰 모델인 PaLM-E-562B(5620억 파라미터)는 로봇 작업 외에도 OK-VQA에서 최상의 성능을 보이며, 규모 증가에 따라 일반화된 언어 능력도 유지하고 있다.

PaLM-E: 몸체를 갖춘 다중모달 언어 모델 | 최신 연구 논문 | HyperAI초신경