ビデオベースの生成性能ベンチマーク
ビデオベースの生成パフォーマンス評価ベンチマーク(情報の正確性)は、生成ビデオ対話モデルの情報正確性を評価するためのベンチマークです。このタスクはActivityNet-200データセットを基に、豊富で詳細な説明キャプションと人間が注釈した質問回答ペアを使用してテストセットを構築しています。GPT-3.5モデルを使用して開発された評価パイプラインは、生成された予測に対して1〜5の相対的なスコアを割り当て、ビデオ対話における情報の正確性を数値化し、モデルの最適化と性能向上の科学的根拠を提供することを目指しています。