HyperAI超神经

AutoCaption 视频字幕基准数据集

日期

9 days ago

发布地址

huggingface.co

许可协议

Apache 2.0

下载帮助

AutoCaption 数据集由 Tjunlp 实验室于 2025 年发布的一个视频字幕基准数据集,相关论文成果为「Evaluating Multimodal Large Language Models on Video Captioning via Monte Carlo Tree Search」,旨在推动多模态大语言模型在视频字幕生成领域的研究。

数据集结构:

该数据集含 2 个子集,共 11,184 个样本:

  • sft_data: 用于字幕模型的监督微调(9,419 个样本用于监督微调数据)
  • mcts_vcb: 使用 MCTS 生成的标题和关键点进行评估(1,765 个样本用于评估 MCTS-VCB 基准)