2달 전
CinePile: 장편 비디오 질문 답변 데이터셋 및 벤치마크
Ruchit Rawal; Khalid Saifullah; Miquel Farré; Ronen Basri; David Jacobs; Gowthami Somepalli; Tom Goldstein

초록
현재의 장형 비디오 이해 데이터셋은 종종 진정한 장형 이해 도전 과제를 제공하지 못하는 경우가 많습니다. 이는 이러한 데이터셋에서 파생된 많은 작업이 비디오의 단일 프레임이나 몇 개의 임의 프레임만 분석해도 성공적으로 해결될 수 있기 때문입니다. 이 문제를 해결하기 위해, 우리는 진정한 장형 비디오 이해를 위한 새로운 데이터셋 및 벤치마크인 CinePile을 제시합니다. 본 논문에서는 인간 참여와 고급 LLMs(대형 언어 모델)을 활용하여 질문-답변 데이터셋을 생성하는 혁신적인 접근 방식을 상세히 설명합니다. 이 접근 방식은 인간이 생성한 원시 데이터를 기반으로 합니다. 우리의 포괄적인 데이터셋은 시간적 이해, 인간-물체 상호작용 이해, 그리고 장면 내 사건 또는 행동에 대한 추론 등을 포함하는 다양한 시각적 및 다중모달 측면을 포괄하는 305,000개의 선택형 질문(MCQs)로 구성되어 있습니다. 또한, 우리는 오픈 소스 Video-LLMs(비디오 대형 언어 모델)을 훈련 세트에서 미세 조정(fine-tuned)하였으며, 테스트 세트에서 오픈 소스 및 독점 비디오 중심 LLMs의 성능을 평가하였습니다. 연구 결과는 현재 모델들이 인간보다 열등한 성능을 보이는 반면, 이러한 모델들을 미세 조정하면 성능에 큰 개선이 이루어질 수 있음을 시사하고 있습니다.