日付

9ヶ月前

サイズ

98.09 GB

データセット構成

ライセンス

CC BY 4.0

タグ

Llama Nemotron VLM v1は、NVIDIAが2025年にVLM後学習用にリリースした高品質の画像およびテキストデータセットです。NVIDIAがリリースしたLlama-3.1-Nemotron-Nano-VL-8B-V1文書理解モデル（文書質問応答、グラフ質問応答、AI2Dなどのシナリオをサポート）をサポートするために使用されます。このデータセットは21のサブセットから構成され、合計2,863,854個のサンプルが含まれています。視覚的質問応答（VQA）、キャプション（画像記述）、光学式文字認識（OCR）の3つのカテゴリを網羅し、再アノテーションされた公開画像データセット、完全合成および半合成OCRデータ（中国語と英語、文字、単語、ページレベル）、内部アノテーション付きOCRセットが含まれています。また、このデータセットは、元の質問応答（VQA）またはキャプションを改良・強化しており、インテリジェントエージェント、チャットアシスタント、RAGなどのアプリケーションのマルチモーダルトレーニングおよび評価に適しています。

データには以下が含まれます:

VQA（ビジュアル質問応答）：1,917,755件の例
字幕: 131,718 サンプル
OCR（テキスト認識）: 814,381 サンプル

Llama-Nemotron-VLM-Dataset-v1.torrent

シーディング 2ダウンロード中 0完了 35総ダウンロード数 125

Llama-Nemotron-VLM-Dataset-v1/
- README.md
  1.65 KB
- README.txt
  3.3 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用

Discordで議論

日付

9ヶ月前

サイズ

98.09 GB

データセット構成

ライセンス

CC BY 4.0

タグ

データには以下が含まれます:

VQA（ビジュアル質問応答）：1,917,755件の例
字幕: 131,718 サンプル
OCR（テキスト認識）: 814,381 サンプル

Llama-Nemotron-VLM-Dataset-v1.torrent

シーディング 2ダウンロード中 0完了 35総ダウンロード数 125

Llama-Nemotron-VLM-Dataset-v1/
- README.md
  1.65 KB
- README.txt
  3.3 KB

Nemotron Personas France（フランス合成ペルソナデータセット）

1ヶ月前

Nemotron-Personas-Brazil ブラジル合成文字データセット

3ヶ月前

LightOnOCR-mix-0126 テキスト転写データセット

4ヶ月前

Nemotron-Math-v2 数学推論データセット

4ヶ月前

MCIFマルチモーダルクロスランゲージ指導データセット

4ヶ月前

LongBench-Pro ロングコンテキスト包括的評価データセット

4ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

データには以下が含まれます:

AIでAIを構築

HyperAI Newsletters

データには以下が含まれます:

関連データセット

Nemotron Personas France（フランス合成ペルソナデータセット）

Nemotron-Personas-Brazil ブラジル合成文字データセット

LightOnOCR-mix-0126 テキスト転写データセット

Nemotron-Math-v2 数学推論データセット

MCIFマルチモーダルクロスランゲージ指導データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

データには以下が含まれます:

関連データセット

Nemotron Personas France（フランス合成ペルソナデータセット）

Nemotron-Personas-Brazil ブラジル合成文字データセット

LightOnOCR-mix-0126 テキスト転写データセット

Nemotron-Math-v2 数学推論データセット

MCIFマルチモーダルクロスランゲージ指導データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

Nemotron Personas France（フランス合成ペルソナデータセット）

Nemotron-Personas-Brazil ブラジル合成文字データセット

LightOnOCR-mix-0126 テキスト転写データセット

Nemotron-Math-v2 数学推論データセット

MCIFマルチモーダルクロスランゲージ指導データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

関連データセット

Nemotron Personas France（フランス合成ペルソナデータセット）

Nemotron-Personas-Brazil ブラジル合成文字データセット

LightOnOCR-mix-0126 テキスト転写データセット

Nemotron-Math-v2 数学推論データセット

MCIFマルチモーダルクロスランゲージ指導データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

Command Palette

Llama Nemotron VLM v1 マルチモーダル画像およびテキストデータセット

データには以下が含まれます:

AIでAIを構築

HyperAI Newsletters

Command Palette

Llama Nemotron VLM v1 マルチモーダル画像およびテキストデータセット

データには以下が含まれます:

関連データセット

Nemotron Personas France（フランス合成ペルソナデータセット）

Nemotron-Personas-Brazil ブラジル合成文字データセット

LightOnOCR-mix-0126 テキスト転写データセット

Nemotron-Math-v2 数学推論データセット

MCIFマルチモーダルクロスランゲージ指導データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

Llama Nemotron VLM v1 マルチモーダル画像およびテキストデータセット

データには以下が含まれます:

関連データセット

Nemotron Personas France（フランス合成ペルソナデータセット）

Nemotron-Personas-Brazil ブラジル合成文字データセット

LightOnOCR-mix-0126 テキスト転写データセット

Nemotron-Math-v2 数学推論データセット

MCIFマルチモーダルクロスランゲージ指導データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

Nemotron Personas France（フランス合成ペルソナデータセット）

Nemotron-Personas-Brazil ブラジル合成文字データセット

LightOnOCR-mix-0126 テキスト転写データセット

Nemotron-Math-v2 数学推論データセット

MCIFマルチモーダルクロスランゲージ指導データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

関連データセット

Nemotron Personas France（フランス合成ペルソナデータセット）

Nemotron-Personas-Brazil ブラジル合成文字データセット

LightOnOCR-mix-0126 テキスト転写データセット

Nemotron-Math-v2 数学推論データセット

MCIFマルチモーダルクロスランゲージ指導データセット

LongBench-Pro ロングコンテキスト包括的評価データセット