Llama Nemotron VLM v1 多模态图文数据集

日期

7 天前

机构

NVIDIA(英伟达)

发布地址

huggingface.co

许可协议

CC BY 4.0

下载帮助

Llama Nemotron VLM v1 是由英伟达于 2025 年发布用于 VLM 后训练的高质量图文数据集,用于支持英伟达发布的 Llama-3.1-Nemotron-Nano-VL-8B-V1 文档理解模型(支持文档问答、图表问答、 AI2D 等场景)。

该数据集整体规模 为 21 个子集,包含 2,863,854 条样本。数据覆盖 VQA(视觉问答)、 Captioning(图像描述)和 OCR(文本识别)三大类别,包含重新标注的公开图像数据集、全/半合成的 OCR 数据(中/英文,字符/词/页面级)以及内部标注的 OCR 集,并对原始 QA(问答)或描述进行了细化与增强,适用于智能体、聊天助手、 RAG 等应用的多模态训练与评测。

数据包含:

  • VQA(视觉问答):1,917,755 条样本
  • Captioning(图像描述):131,718 条样本
  • OCR(文本识别):814,381 条样本