Video Based Generative Performance 5
Video-based Generative Performance Benchmarking (Consistency) 是一项评估生成式视频对话模型一致性的基准测试任务。该任务基于 ActivityNet-200 数据集,通过丰富的密集描述性字幕和人类标注的问答对构建测试集,利用 GPT-3.5 模型开发的评估管道,对生成的预测结果进行 1-5 分的相对评分。旨在衡量模型在多轮对话中保持信息一致性和逻辑连贯性的能力,为视频对话系统的性能优化提供重要参考。