
초록
지시어 조정을 통해 기계가 생성한 지시어 따르기 데이터를 사용하여 대형 언어 모델(LLMs)의 제로샷(zero-shot) 능력이 새로운 작업에서 향상되었지만, 이 아이디어는 다중모달(multimodal) 분야에서는 덜 탐구되었습니다. 본 논문에서는 언어만을 사용하는 GPT-4를 활용하여 다중모달 언어-이미지 지시어 따르기 데이터를 생성하는 첫 번째 시도를 소개합니다. 이러한 생성된 데이터에 대한 지시어 조정을 통해 LLaVA: 대형 언어 및 비전 보조 시스템(Large Language and Vision Assistant)을 도입합니다. 이는 비전 인코더와 LLM을 연결하여 일반적인 목적의 시각적 및 언어적 이해를 수행하는 대형 다중모달 모델입니다.우리의 초기 실험 결과, LLaVA는 뛰어난 다중모달 채팅 능력을 보여주며, 때때로 미처 본 적 없는 이미지/지시어에 대해 다중모달 GPT-4와 유사한 행동을 나타내기도 합니다. 또한 합성 다중모달 지시어 따르기 데이터셋에서 GPT-4에 비해 85.1%의 상대 점수를 얻었습니다. Science QA에서 미세 조정(fine-tuned)할 때, LLaVA와 GPT-4의 시너지는 92.53%라는 새로운 최고 수준의 정확도를 달성하였습니다. 우리는 GPT-4가 생성한 시각적 지시어 조정 데이터, 우리의 모델 및 코드베이스를 공개적으로 제공합니다.