Command Palette
Search for a command to run...
VL3-Syn7M 多模态图像-文本数据集
VL3-Syn7M 数据集是由阿里巴巴达摩院于 2025 年发布的高质量图像-文本数据集,旨在助力视频理解的前沿多模态基础模型 VideoLLaMA3 实现多模态理解的显著进步,相关论文成果为:「VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding」。该数据集包含多维度的精细标注,包括图像的详细字幕、简短字幕以及图像来源信息等,并且涵盖场景图像、文档图像、文本图像等多种类型的数据,为模型学习多模态信息提供丰富素材。这些高质量数据为深入研究图像语义理解、优化多模态交互系统提供宝贵支撑,并推动如智能视觉助手、文档理解工具、图像引导的机器人交互等相关产业的发展。
主要特点
- 数据规模大:包含 700 万张图像及对应的标注,为模型训练提供海量样本,充分满足复杂模型对大规模数据的需求,有助于提升模型对各种视觉场景和语义的理解能力。
- 数据来源广泛:场景图像来源于如 Object365 和 SA-1B 等多个不同的数据集,极大地增加了数据多样性;场景文本图像来自 BLIP3-OCR;文档图像选取自 pdfa-eng-wds 和 idl-wds 等。广泛的数据来源使得数据涵盖丰富多样的视觉内容与场景,能够提升模型对不同类型图像的泛化理解能力。
- 标注质量高:简短字幕由 InternVL2-8B 生成,详细字幕则由 InternVL2-26B 完成,且包含大量纯文本数据。高质量的字幕标注为模型学习图像与文本之间的关联提供了准确的引导,同时纯文本数据有助于提升模型处理涉及视觉和文本输入的指令跟随任务的能力 。
Citation
@article{damonlpsg2025videollama3,
title={VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding},
author={Boqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao},
journal={arXiv preprint arXiv:2501.13106},
year={2025},
url = {https://arxiv.org/abs/2501.13106}
}
@article{damonlpsg2024videollama2,
title={VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs},
author={Cheng, Zesen and Leng, Sicong and Zhang, Hang and Xin, Yifei and Li, Xin and Chen, Guanzheng and Zhu, Yongxin and Zhang, Wenqi and Luo, Ziyang and Zhao, Deli and Bing, Lidong},
journal={arXiv preprint arXiv:2406.07476},
year={2024},
url = {https://arxiv.org/abs/2406.07476}
}
@article{damonlpsg2023videollama,
title = {Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding},
author = {Zhang, Hang and Li, Xin and Bing, Lidong},
journal = {arXiv preprint arXiv:2306.02858},
year = {2023},
url = {https://arxiv.org/abs/2306.02858}
}