Vcgbench Diverse
VCGBench-Diverse هو معيار مصمم لتقييم قدرات التعميم للنماذج اللغوية الكبيرة للفيديو بشكل شامل. يشمل هذا المعيار 877 مقطع فيديو، و18 فئة عريضة، و4,354 زوج سؤال-إجابة، مما يضمن إطار تقييم قوي. يتم التقييم في خمس جوانب: دقة المعلومات، التركيز على التفاصيل، فهم السياق، فهم الزمن، والاتساق، ويقدم تحليل الأداء في ثلاث مناطق حاسمة: التسمية الكثيفة للفيديو، الفهم المكاني، والمنطق.