2달 전

Kosmos-2: 다중 모드 대형 언어 모델의 세계 연계

Zhiliang Peng; Wenhui Wang; Li Dong; Yaru Hao; Shaohan Huang; Shuming Ma; Furu Wei
Kosmos-2: 다중 모드 대형 언어 모델의 세계 연계
초록

우리는 Kosmos-2, 다중 모달 대형 언어 모델(Multimodal Large Language Model, MLLM)을 소개합니다. 이 모델은 객체 설명(예: 경계 상자)을 인식하고 텍스트를 시각적 세계에 연결하는 새로운 기능을 제공합니다. 구체적으로, 참조 표현을 Markdown의 링크로 표현하며, 즉 ``텍스트 범위''와 같은 형식으로 객체 설명은 위치 토큰들의 시퀀스로 나타냅니다. 다중 모달 코퍼스와 함께, 우리는 이러한 데이터를 대규모로 구성하여 이미지-텍스트 쌍이 연결된 데이터(GrIT라고 함)를 생성하여 모델을 학습시킵니다. 기존 MLLM의 기능(일반적인 모달 인식, 지시사항 준수, 문맥 내 학습 등) 외에도, Kosmos-2는 하류 응용 프로그램에 연결 기능을 통합합니다. 우리는 Kosmos-2를 (i) 다중 모달 연결 작업(참조 표현 이해 및 구문 연결 등), (ii) 다중 모달 참조 작업(참조 표현 생성 등), (iii) 인식-언어 작업, 그리고 (iv) 언어 이해 및 생성 등의 다양한 작업에서 평가하였습니다. 이 연구는 체화 AI(Embodiment AI) 개발의 기초를 마련하고, 언어, 다중 모달 인식, 행동 및 세계 모델링의 큰 융합에 대해 조명하며, 이는 인공 일반 지능으로 향한 중요한 단계입니다. 코드와 사전 학습된 모델은 https://aka.ms/kosmos-2에서 이용 가능합니다.

Kosmos-2: 다중 모드 대형 언어 모델의 세계 연계 | 최신 연구 논문 | HyperAI초신경