HyperAI

Vcgbench Diverse

VCGBench-Diverse est un benchmark conçu pour évaluer de manière exhaustive les capacités de généralisation des grands modèles de langage vidéo. Ce benchmark comprend 877 clips vidéo, 18 catégories larges et 4 354 paires de questions-réponses, garantissant ainsi un cadre d'évaluation solide. L'évaluation couvre cinq aspects : la précision de l'information, l'orientation vers le détail, la compréhension du contexte, la compréhension temporelle et la cohérence, et fournit des décompositions de performance dans trois domaines critiques : le sous-titrage vidéo dense, la compréhension spatiale et le raisonnement.