ビデオベースの生成性能ベンチマーク(詳細指向)

ビデオベースの生成パフォーマンスベンチマーク(詳細指向)は、生成ビデオ対話モデルの詳細指向能力を評価するためのベンチマークです。このタスクはActivityNet-200データセットを基に、豊富で密度の高い人間が注釈した説明的なキャプションとそれに関連する質問応答ペアからテストセットを構築しています。GPT-3.5モデルを使用して、生成された予測に対して1〜5の相対スコアを提供する評価パイプラインを開発しています。目的は、モデルが詳細を理解し表現する正確性と一貫性を向上させ、ビデオ対話システムの性能最適化に重要な参考情報を提供することです。

ビデオベースの生成性能ベンチマーク(詳細指向) | SOTA | HyperAI超神経