Video Based Generative Performance
ビデオベースの生成性能評価ベンチマークは、ビデオ対話モデルの生成性能を情報精度、詳細指向性、文脈理解、時間的理解、一貫性という5つの重要な側面から包括的に評価するためのタスクです。このタスクでは、豊富で詳細に記述されたビデオと人間が注釈した質問応答ペアを含むActivityNet-200データセットに基づいてテストセットを構築しています。また、GPT-3.5モデルを使用して、生成された予測に対して1から5までの相対的なスコアを提供するスコアリングパイプラインを開発しています。このベンチマークタスクは、ビデオ対話モデルの開発と最適化を推進し、実世界での性能向上に貢献します。