VRBench: 장편 내러티브 비디오에서 다단계 추론을 위한 벤치마크
Yu, Jiashuo ; Wu, Yue ; Chu, Meng ; Ren, Zhifei ; Huang, Zizheng ; Chu, Pei ; Zhang, Ruijie ; He, Yinan ; Li, Qirui ; Li, Songze ; Li, Zhenxiang ; Tu, Zhongying ; He, Conghui ; Qiao, Yu ; Wang, Yali ; Wang, Yi ; Wang, Limin
발행일: 6/15/2025

초록
우리는 VRBench를 소개합니다. 이는 시간적 추론과 절차적 유효성을 간과하는 기존 평가의 한계를 해결하기 위해 설계된 첫 번째 장편 내러티브 비디오 벤치마크입니다. VRBench는 1,010개의 장편 비디오(평균 길이 1.6시간)와 9,468개의 인간 라벨링된 다단계 질문-답변 쌍, 그리고 타임스탬프가 있는 30,292개의 추론 단계로 구성되어 있습니다. 이러한 비디오는 전문가 간 평가를 포함한 다단계 필터링 과정을 통해 플롯 일관성을 우선으로 선별되었습니다.우리는 인간과 AI 협업 프레임워크를 개발하여 시간적으로 근거된 여러 단계를 필요로 하는 일관성 있는 추론 체인을 생성합니다. 이 추론 체인은 사건 귀인, 암시적 추론 등 7가지 유형을 포괄합니다. VRBench는 결과와 과정 수준에서 모델을 평가하기 위한 다단계 평가 파이프라인을 설계하였습니다. 최종 결과에 대한 선택형 질문(MCQs) 외에도, 우리는 다차원적으로 추론 체인의 품질을 종합적으로 평가하기 위한 진행 단계별 LLM 안내 점수 지표를 제안합니다.12개의 LLMs와 16개의 VLMs에 대한 VRBench 상의 광범위한 평가를 통해, 우리는 철저한 분석을 수행하고 다단계 추론 분야에 중요한 통찰력을 제공합니다.