ビデオベースの生成性能ベンチマーク(時間的理解)
「ビデオベースの生成パフォーマンスベンチマーク(時間的理解)」は、生成型ビデオ対話モデルの時間的理解能力を評価するためのベンチマークタスクです。このタスクでは、豊富な詳細な説明キャプションと人間が注釈した質問回答ペアを含むActivityNet-200データセットに基づいてテストセットを構築します。GPT-3.5モデルを使用して開発された評価パイプラインは、生成された予測に対して1から5までの相対的なスコアを提供し、モデルがビデオのタイムラインに沿って内容を理解し、生成する能力を包括的に測定することを目指しています。これにより、人間とコンピュータの対話体験が向上します。