Video Based Generative Performance 1
Video-based Generative Performance Benchmarking (Correctness of Information) 是一项评估生成式视频对话模型信息准确性的基准测试。该任务基于 ActivityNet-200 数据集,通过丰富且密集的描述性字幕及人工标注的问答对构建测试集。利用 GPT-3.5 模型开发的评估管道,对生成的预测结果进行 1-5 分的相对评分,旨在量化模型在视频对话中的信息正确性,为模型优化和性能提升提供科学依据。