日期

9 个月前

大小

98.09 GB

数据集组织

许可证

CC BY 4.0

标签

Llama Nemotron VLM v1 是由英伟达于 2025 年发布用于 VLM 后训练的高质量图文数据集，用于支持英伟达发布的 Llama-3.1-Nemotron-Nano-VL-8B-V1 文档理解模型（支持文档问答、图表问答、 AI2D 等场景）。该数据集整体规模为 21 个子集，包含 2,863,854 条样本。数据覆盖 VQA（视觉问答）、 Captioning（图像描述）和 OCR（文本识别）三大类别，包含重新标注的公开图像数据集、全/半合成的 OCR 数据（中/英文，字符/词/页面级）以及内部标注的 OCR 集，并对原始 QA（问答）或描述进行了细化与增强，适用于智能体、聊天助手、 RAG 等应用的多模态训练与评测。

数据包含：

VQA（视觉问答）：1,917,755 条样本
Captioning（图像描述）：131,718 条样本
OCR（文本识别）：814,381 条样本

Llama-Nemotron-VLM-Dataset-v1.torrent

做种 2正在下载 0已完成 35总下载量 125

Llama-Nemotron-VLM-Dataset-v1/
- README.md
  1.65 KB
- README.txt
  3.3 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

9 个月前

大小

98.09 GB

数据集组织

许可证

CC BY 4.0

标签

数据包含：

VQA（视觉问答）：1,917,755 条样本
Captioning（图像描述）：131,718 条样本
OCR（文本识别）：814,381 条样本

Llama-Nemotron-VLM-Dataset-v1.torrent

做种 2正在下载 0已完成 35总下载量 125

Llama-Nemotron-VLM-Dataset-v1/
- README.md
  1.65 KB
- README.txt
  3.3 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

Nemotron Personas France 法国合成人物数据集

1 个月前

Nemotron-Personas-Brazil 巴西合成角色数据集

3 个月前

LightOnOCR-mix-0126 文本转录数据集

4 个月前

Nemotron-Math-v2 数学推理数据集

4 个月前

MCIF 多模态跨语言指令跟随数据集

4 个月前

LongBench-Pro 长上下文综合评测数据集

4 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

数据包含：

用 AI 构建 AI

HyperAI Newsletters

数据包含：

相关数据集

Nemotron Personas France 法国合成人物数据集

Nemotron-Personas-Brazil 巴西合成角色数据集

LightOnOCR-mix-0126 文本转录数据集

Nemotron-Math-v2 数学推理数据集

MCIF 多模态跨语言指令跟随数据集

LongBench-Pro 长上下文综合评测数据集

用 AI 构建 AI

HyperAI Newsletters

数据包含：

相关数据集

Nemotron Personas France 法国合成人物数据集

Nemotron-Personas-Brazil 巴西合成角色数据集

LightOnOCR-mix-0126 文本转录数据集

Nemotron-Math-v2 数学推理数据集

MCIF 多模态跨语言指令跟随数据集

LongBench-Pro 长上下文综合评测数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

Nemotron Personas France 法国合成人物数据集

Nemotron-Personas-Brazil 巴西合成角色数据集

LightOnOCR-mix-0126 文本转录数据集

Nemotron-Math-v2 数学推理数据集

MCIF 多模态跨语言指令跟随数据集

LongBench-Pro 长上下文综合评测数据集

相关数据集

Nemotron Personas France 法国合成人物数据集

Nemotron-Personas-Brazil 巴西合成角色数据集

LightOnOCR-mix-0126 文本转录数据集

Nemotron-Math-v2 数学推理数据集

MCIF 多模态跨语言指令跟随数据集

LongBench-Pro 长上下文综合评测数据集

Command Palette

Llama Nemotron VLM v1 多模态图文数据集

数据包含：

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Llama Nemotron VLM v1 多模态图文数据集

数据包含：

相关数据集

Nemotron Personas France 法国合成人物数据集

Nemotron-Personas-Brazil 巴西合成角色数据集

LightOnOCR-mix-0126 文本转录数据集

Nemotron-Math-v2 数学推理数据集

MCIF 多模态跨语言指令跟随数据集

LongBench-Pro 长上下文综合评测数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Llama Nemotron VLM v1 多模态图文数据集

数据包含：

相关数据集

Nemotron Personas France 法国合成人物数据集

Nemotron-Personas-Brazil 巴西合成角色数据集

LightOnOCR-mix-0126 文本转录数据集

Nemotron-Math-v2 数学推理数据集

MCIF 多模态跨语言指令跟随数据集

LongBench-Pro 长上下文综合评测数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

Nemotron Personas France 法国合成人物数据集

Nemotron-Personas-Brazil 巴西合成角色数据集

LightOnOCR-mix-0126 文本转录数据集

Nemotron-Math-v2 数学推理数据集

MCIF 多模态跨语言指令跟随数据集

LongBench-Pro 长上下文综合评测数据集

相关数据集

Nemotron Personas France 法国合成人物数据集

Nemotron-Personas-Brazil 巴西合成角色数据集

LightOnOCR-mix-0126 文本转录数据集

Nemotron-Math-v2 数学推理数据集

MCIF 多模态跨语言指令跟随数据集

LongBench-Pro 长上下文综合评测数据集