日期

1 年前

论文 URL

许可证

Apache 2.0

标签

AutoCaption 数据集由 Tjunlp 实验室于 2025 年发布的一个视频字幕基准数据集，相关论文成果为「Evaluating Multimodal Large Language Models on Video Captioning via Monte Carlo Tree Search」，旨在推动多模态大语言模型在视频字幕生成领域的研究。

数据集结构：

该数据集含 2 个子集，共 11,184 个样本：

sft_data：用于字幕模型的监督微调（9,419 个样本用于监督微调数据）
mcts_vcb：使用 MCTS 生成的标题和关键点进行评估（1,765 个样本用于评估 MCTS-VCB 基准）

Citation

@misc{yu2025evaluatingmultimodallargelanguage, title={Evaluating Multimodal Large Language Models on Video Captioning via Monte Carlo Tree Search}, author={Linhao Yu and Xinguang Ji and Yahui Liu and Fanheng Kong and Chenxi Sun and Jingyuan Zhang and Hongzhi Zhang and V. W. and Fuzheng Zhang and Deyi Xiong}, year={2025}, eprint={2506.11155}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.11155}, }

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。