Llama Nemotron VLM v1 是由英伟达于 2025 年发布用于 VLM 后训练的高质量图文数据集,用于支持英伟达发布的 Llama-3.1-Nemotron-Nano-VL-8B-V1 文档理解模型(支持文档问答、图表问答、 AI2D 等场景)。
该数据集整体规模 为 21 个子集,包含 2,863,854 条样本。数据覆盖 VQA(视觉问答)、 Captioning(图像描述)和 OCR(文本识别)三大类别,包含重新标注的公开图像数据集、全/半合成的 OCR 数据(中/英文,字符/词/页面级)以及内部标注的 OCR 集,并对原始 QA(问答)或描述进行了细化与增强,适用于智能体、聊天助手、 RAG 等应用的多模态训练与评测。
数据包含:
- VQA(视觉问答):1,917,755 条样本
- Captioning(图像描述):131,718 条样本
- OCR(文本识别):814,381 条样本