HyperAI超神経

Vcgbench Diverse

VCGBench-Diverseは、ビデオの大規模言語モデルの汎化能力を包括的に評価するためのベンチマークです。このベンチマークには877のビデオクリップ、18の広範なカテゴリー、および4,354の質問回答ペアが含まれており、堅固な評価フレームワークを提供します。評価は情報の正確性、詳細への配慮、文脈理解、時間的理解、一貫性の5つの側面をカバーし、パフォーマンスの内訳は密集型ビデオキャプショニング、空間理解、推論の3つの重要な領域で提供されます。