ビデオベースの生成性能ベンチマーク(一貫性)
「ビデオベースの生成パフォーマンスベンチマーク(一貫性)」は、生成ビデオ対話モデルの一貫性を評価するためのベンチマークタスクです。このタスクは、豊富な詳細な説明キャプションと人間が注釈した質問応答ペアを使用してテストセットを構築するActivityNet-200データセットに基づいています。GPT-3.5モデルを使用して開発された評価パイプラインが利用され、生成された予測に対して1〜5の相対的なスコアが提供されます。目的は、モデルが複数回の対話において情報の一貫性と論理的一致性を維持する能力を測定し、ビデオ対話システムのパフォーマンス最適化に重要な参考情報を提供することです。