2달 전

비디오 지시어 조정을 위한 합성 데이터

Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, Chunyuan Li

초록

비디오 대형 다중모드 모델(LMMs)의 개발은 웹에서 대량의 고품질 원시 데이터를 수집하는 어려움으로 인해 제약을 받아 왔습니다. 이를 해결하기 위해, 우리는 비디오 지시사항 따르기 전용으로 설계된 고품질 합성 데이터셋인 LLaVA-Video-178K를 생성하는 대안적 접근 방식을 제안합니다. 이 데이터셋은 상세 캡셔닝, 개방형 질문-답변(QA), 다중 선택 QA 등의 주요 작업을 포함하고 있습니다. 이 데이터셋을 기존 시각적 지시사항 조정 데이터와 함께 사용하여 학습함으로써, 우리는 새로운 비디오 LMM인 LLaVA-Video를 소개합니다. 우리의 실험 결과는 LLaVA-Video가 다양한 비디오 벤치마크에서 우수한 성능을 보임으로써, 우리 데이터셋의 효과성을 입증하고 있습니다. 우리는 이 데이터셋, 그 생성 파이프라인, 그리고 모델 체크포인트를 공개할 계획입니다.