ビデオベースの生成性能ベンチマーキング(文脈理解)

「ビデオベースの生成性能ベンチマーク(文脈理解)」は、生成型ビデオ対話モデルの文脈理解能力を評価するためのベンチマークタスクです。このタスクはActivityNet-200データセットを基に構築され、豊富な詳細な説明キャプションと人間が注釈した質問回答ペアを含むテストセットが作成されています。GPT-3.5モデルを使用して生成された予測をスコアリングし、モデルのビデオコンテンツ理解能力和生成能力を包括的に測定することを目指しています。これにより、ビデオ対話システムの性能最適化とアプリケーション開発が促進されます。

ビデオベースの生成性能ベンチマーキング(文脈理解) | SOTA | HyperAI超神経