2달 전

ShareGPT4V: 더 나은 캡션으로 대형 다중 모드 모델 개선

Lin Chen; Jinsong Li; Xiaoyi Dong; Pan Zhang; Conghui He; Jiaqi Wang; Feng Zhao; Dahua Lin
ShareGPT4V: 더 나은 캡션으로 대형 다중 모드 모델 개선
초록

대형 다중 모드 모델(LMMs)의 영역에서 효율적인 모드 정렬은 필수적이지만, 고품질 이미지-텍스트 데이터의 부족으로 인해 종종 제약을 받습니다. 이 문제를 해결하기 위해, 우리는 ShareGPT4V 데이터셋을 소개합니다. 이는 120만 개의 매우 설명적인 캡션을 포함하는 선구적인 대규모 자원으로, 기존 데이터셋보다 다양성과 정보량 면에서 우월하며 세계 지식, 객체 속성, 공간 관계 및 미적 평가를 포괄합니다. 구체적으로, ShareGPT4V는 고급 GPT4-Vision에서 수집된 10만 개의 고품질 캡션을 기반으로 하여, 이 부분 집합에서 훈련된 뛰어난 캡션 모델로 확장되었습니다.ShareGPT4V는 감독된 fine-tuning(SFT) 단계에서 그 효과성을 처음으로 입증하였습니다. 기존 SFT 데이터셋에 있는 동일한 양의 상세한 캡션을 우리의 고품질 캡션 부분 집합으로 대체함으로써, LLaVA-7B, LLaVA-1.5-13B 및 Qwen-VL-Chat-7B와 같은 LMMs의 MME 및 MMBench 벤치마크 성능이 크게 향상되었습니다(각각 222.8/22.0/22.3 및 2.7/1.3/1.5). 또한 우리는 ShareGPT4V 데이터를 사전 훈련(pre-training) 및 SFT 단계 모두에 통합하여, 간단한 아키텍처를 기반으로 하는 ShareGPT4V-7B라는 우수한 LMM를 획득하였습니다. 이 모델은 대부분의 다중 모드 벤치마크에서 뛰어난 성능을 보입니다.이 프로젝트는 https://ShareGPT4V.github.io 에서 이용 가능하며, LMMs 커뮤니티 발전을 위한 핵심 자원으로 활용될 것입니다.

ShareGPT4V: 더 나은 캡션으로 대형 다중 모드 모델 개선 | 최신 연구 논문 | HyperAI초신경