HyperAI超神经

HyperAI

Video-based Generative Performance Benchmarking (Correctness of Information) 是一项评估生成式视频对话模型信息准确性的基准测试。该任务基于 ActivityNet-200 数据集，通过丰富且密集的描述性字幕及人工标注的问答对构建测试集。利用 GPT-3.5 模型开发的评估管道，对生成的预测结果进行 1-5 分的相对评分，旨在量化模型在视频对话中的信息正确性，为模型优化和性能提升提供科学依据。

VideoInstruct

Command Palette

基于视频的生成性能基准测试 (信息正确性)

Command Palette

基于视频的生成性能基准测试 (信息正确性)

Command Palette

基于视频的生成性能基准测试 (信息正确性)