Video Based Generative Performance 4
Video-based Generative Performance Benchmarking (Temporal Understanding) 是一项评估生成式视频对话模型时间理解能力的基准测试任务。该任务基于 ActivityNet-200 数据集构建测试集,包含丰富的密集描述性字幕及人工标注的问答对。通过 GPT-3.5 模型开发的评价管道,对生成的预测结果进行 1-5 分的相对评分,旨在全面衡量模型在视频时间轴上的理解和生成能力,提升人机交互体验。