Vcgbench Diverse
VCGBench-Diverse ist ein Benchmark, der entwickelt wurde, um die Generalisierungsfähigkeiten von Video-Large-Language-Modellen umfassend zu bewerten. Dieser Benchmark umfasst 877 Videoclips, 18 breite Kategorien und 4.354 Frage-Antwort-Paare, was ein robustes Evaluationsframework gewährleistet. Die Bewertung deckt fünf Aspekte ab: Informationsgenauigkeit, Detailorientierung, Kontextverstehen, zeitliche Verständnis und Konsistenz, und bietet Leistungsunterscheidungen in drei kritischen Bereichen: dichtes Video-Kaptionieren, räumliches Verstehen und Schlussfolgerung.