HyperAI超神经

Vcgbench Diverse

VCGBench-Diverse 是一项旨在全面评估视频大语言模型泛化能力的基准测试。该基准包含 877 段视频、18 个广泛类别和 4,354 个问答对,确保了稳健的评估框架。评估涵盖信息准确性、细节导向、上下文理解、时间理解和一致性五个方面,并提供密集视频字幕、空间理解和推理三个关键方面的性能细分。