HyperAI超神经

Video Based Generative Performance 3

Video-based Generative Performance Benchmarking (Contextual Understanding) 是一项评估生成式视频对话模型在情境理解方面性能的基准测试任务。该任务基于 ActivityNet-200 数据集,通过丰富的密集描述性字幕和人工标注的问答对构建测试集,利用 GPT-3.5 模型对生成的预测结果进行评分,旨在全面衡量模型对视频内容的理解和生成能力,推动视频对话系统的性能优化与应用发展。