HyperAI超神经

Video Based Generative Performance

Video-based Generative Performance Benchmarking是一项针对生成式视频对话模型的评估基准任务,旨在通过五个关键方面——信息准确性、详细导向性、上下文理解、时间理解及一致性,对模型的生成性能进行全面评价。该任务基于ActivityNet-200数据集构建测试集,包含丰富且密集描述的视频及其相关的人类标注问答对,并利用GPT-3.5模型开发了评分管道,为生成的预测结果提供1-5的相对评分。此基准任务有助于推动视频对话模型的研发与优化,提升其在实际应用场景中的表现。