2달 전

MVBench: 포괄적인 다중 모드 비디오 이해 벤치마크

Kunchang Li; Yali Wang; Yinan He; Yizhuo Li; Yi Wang; Yi Liu; Zun Wang; Jilan Xu; Guo Chen; Ping Luo; Limin Wang; Yu Qiao
MVBench: 포괄적인 다중 모드 비디오 이해 벤치마크
초록

다중 모드 대형 언어 모델(Multi-modal Large Language Models, MLLMs)의 급속한 발전에 따라 최근 이러한 모델의 이해 능력을 평가하기 위한 여러 진단 벤치마크가 등장했습니다. 그러나 대부분의 벤치마크는 정적인 이미지 작업에서의 공간적 이해를 주로 평가하는 반면, 동적인 비디오 작업에서의 시간적 이해는 간과되고 있습니다. 이 문제를 완화하기 위해, 우리는 단일 프레임으로 효과적으로 해결할 수 없는 20개의 어려운 비디오 작업을 포함하는 포괄적인 다중 모드 비디오 이해 벤치마크인 MVBench를 소개합니다. 구체적으로, 우리는 이러한 시간 관련 작업을 정의하기 위한 새로운 정적-동적 방법을 제안합니다. 다양한 정적 작업을 동적 작업으로 변환함으로써, 지각부터 인식까지 광범위한 시간적 기술이 필요한 비디오 작업을 체계적으로 생성할 수 있게 되었습니다. 그런 다음, 작업 정의에 따라 공개된 비디오 주석을 자동으로 선택형 질문-답변(QA)으로 변환하여 각 작업을 평가합니다. 한편으로는 이러한 독특한 패러다임은 많은 수작업 없이 MVBench를 효율적으로 구축할 수 있게 해줍니다. 다른 한편으로는 실제 비디오 주석과 비교하여 평가의 공정성을 보장하며, LLMs의 편향된 점수 부여를 피할 수 있습니다. 또한, 우리는 다양한 지시 조정 데이터를 사용하여 점진적으로 다중 모드 훈련을 수행하여 강건한 비디오 MLLM 기준선인 VideoChat2를 개발하였습니다. 우리의 MVBench에서 얻은 광범위한 결과는 기존 MLLMs가 시간적 이해 측면에서 만족스럽지 않다는 것을 보여주며, VideoChat2는 MVBench에서 선도적인 모델들보다 15% 이상 뛰어난 성능을 보였습니다. 모든 모델과 데이터는 https://github.com/OpenGVLab/Ask-Anything에서 제공됩니다.