16일 전

MIMIC-IT: 다중모달 인컨택스트 지시 조정

Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Fanyi Pu, Jingkang Yang, Chunyuan Li, Ziwei Liu
MIMIC-IT: 다중모달 인컨택스트 지시 조정
초록

고품질의 지시문과 응답은 대규모 언어 모델이 상호작용형 자연어 작업에서 제로샷 성능을 발휘하는 데 있어 핵심적인 요소이다. 특히 복잡한 시각적 장면을 포함하는 상호작용형 시각-언어 작업의 경우, 시각-언어 모델(VLM)의 성능을 향상시키기 위해 양적·질적 측면에서 다양하고 창의적인 지시-응답 쌍이 필수적이다. 그러나 현재까지 공개된 시각-언어 지시-응답 쌍은 양, 다양성, 창의성 측면에서 여전히 제한적이며, 이는 상호작용형 VLM의 일반화 능력에 도전 과제를 제기하고 있다. 본 연구에서는 280만 개의 다중모달 지시-응답 쌍을 포함하는 MIMIC-IT(MultI-Modal In-Context Instruction Tuning) 데이터셋을 제안한다. 이 데이터셋은 이미지 및 영상에서 유도된 220만 개의 고유 지시문을 포함하고 있으며, 각 쌍은 다중모달 인-컨텍스트 정보를 함께 제공하여 시각-언어 모델의 인지, 추론, 계획 능력을 강화할 수 있는 대화적 맥락을 형성한다. 지시-응답 쌍 수집 프로세스인 Syphus는 인간 전문성과 GPT의 능력을 결합한 자동 주석 파이프라인을 통해 확장 가능하게 설계되었다. MIMIC-IT 데이터셋을 기반으로 Otter라는 대규모 VLM을 훈련시켰으며, 다양한 시각-언어 벤치마크에서 수행된 평가 결과, Otter는 다중모달 인지, 추론, 인-컨텍스트 학습 능력에서 뛰어난 성능을 보였다. 인간 평가 결과에서도 사용자의 의도와 효과적으로 일치하는 것으로 확인되었다. 본 연구에서는 MIMIC-IT 데이터셋, 지시-응답 수집 파이프라인, 벤치마크, 그리고 Otter 모델을 공개한다.

MIMIC-IT: 다중모달 인컨택스트 지시 조정 | 최신 연구 논문 | HyperAI초신경