
초록
대형 다중 모드 모델(LMM)은 최근 시각적 지시 조정을 통해 고무적인 진전을 보여주었습니다. 이 논문에서는 LLaVA의 완전 연결된 시각-언어 크로스모달 커넥터가 놀라운 성능과 데이터 효율성을 보임을 입증합니다. LLaVA에 대한 간단한 수정, 즉 CLIP-ViT-L-336px를 사용하여 MLP 프로젝션을 수행하고 학술 과제 중심의 VQA 데이터를 간단한 응답 형식 프롬프트와 함께 추가함으로써, 우리는 11개 벤치마크에서 최신 기술 수준을 달성하는 더 강력한 기준선을 설정하였습니다. 우리의 최종 13B 체크포인트는 단지 1.2M의 공개적으로 이용 가능한 데이터만 사용하며, 단일 8-A100 노드에서 약 1일 만에 전체 훈련을 완료합니다. 우리는 이를 통해 최신 기술 수준의 LMM 연구가 더욱 접근하기 쉬워지기를 바랍니다. 코드와 모델은 공개될 예정입니다.