このデータセットを使用

Discordで議論

日付

10ヶ月前

サイズ

36.78 GB

データセット構成

Paper URL

ライセンス

CC BY 4.0

タグ

Nemotron-Post-Training-Dataset-v2は、NVIDIAが既存の学習後コーパスに基づいて2025年にリリースしたバージョンです。このデータセットは、SFTおよびRLデータを5つのターゲット言語（スペイン語/フランス語/ドイツ語/イタリア語/日本語）に拡張し、数学、コード、STEM（科学、技術、工学、数学）、対話などのシナリオを網羅しています。これらのシナリオは、モデルの推論および指示追従能力の向上に使用されます。また、メタデータベースのフィルタリング機能と典型的なサブセット例も提供しています。このデータセットは、Nemotron-Nano-9B-v2シリーズのリリースおよびアライメント研究に役立ち、ユーザーが実験を再現してさらに改善することを容易にする、公開学習後コーパスの1つです。関連する論文結果は以下です。NVIDIA Nemotron Nano 2: 正確で効率的なハイブリッド Mamba-Transformer 推論モデル”。 スクリーニング可能なサンプル分散型メタデータ付き:

フィルターダウンロード: カテゴリ/言語/ソースモデルなどのメタデータによる迅速なフィルタリングとダウンロードをサポートします。
カテゴリーとサイズ（値）：数学（239,467）; コード（175,000）; ステム（355,000）; チャット（627,720）
多言語対応：日本語、ドイツ語、イタリア語、スペイン語、フランス語
ソース: 複数の大規模モデル (DeepSeek-R1-0528、Qwen 2.5/3 シリーズなど) から合成
注釈形式: 一部のサンプルでは「推論オンまたはオフ」の2つの回答が提供されます。推論トレースは英語です。

Nemotron-Post-Training-Dataset-v2.torrent

シーディング 2ダウンロード中 0完了 49総ダウンロード数 143

Nemotron-Post-Training-Dataset-v2/
- README.md
  1.94 KB
- README.txt
  3.88 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

このデータセットを使用

Discordで議論

日付

10ヶ月前

サイズ

36.78 GB

データセット構成

Paper URL

2508.14444

ライセンス

CC BY 4.0

タグ

Nemotron-Post-Training-Dataset-v2は、NVIDIAが既存の学習後コーパスに基づいて2025年にリリースしたバージョンです。このデータセットは、SFTおよびRLデータを5つのターゲット言語（スペイン語/フランス語/ドイツ語/イタリア語/日本語）に拡張し、数学、コード、STEM（科学、技術、工学、数学）、対話などのシナリオを網羅しています。これらのシナリオは、モデルの推論および指示追従能力の向上に使用されます。また、メタデータベースのフィルタリング機能と典型的なサブセット例も提供しています。このデータセットは、Nemotron-Nano-9B-v2シリーズのリリースおよびアライメント研究に役立ち、ユーザーが実験を再現してさらに改善することを容易にする、公開学習後コーパスの1つです。関連する論文結果は以下です。NVIDIA Nemotron Nano 2: 正確で効率的なハイブリッド Mamba-Transformer 推論モデル”。 スクリーニング可能なサンプル分散型メタデータ付き:

フィルターダウンロード: カテゴリ/言語/ソースモデルなどのメタデータによる迅速なフィルタリングとダウンロードをサポートします。
カテゴリーとサイズ（値）：数学（239,467）; コード（175,000）; ステム（355,000）; チャット（627,720）
多言語対応：日本語、ドイツ語、イタリア語、スペイン語、フランス語
ソース: 複数の大規模モデル (DeepSeek-R1-0528、Qwen 2.5/3 シリーズなど) から合成
注釈形式: 一部のサンプルでは「推論オンまたはオフ」の2つの回答が提供されます。推論トレースは英語です。

Nemotron-Post-Training-Dataset-v2.torrent

シーディング 2ダウンロード中 0完了 49総ダウンロード数 143

Nemotron-Post-Training-Dataset-v2/
- README.md
  1.94 KB
- README.txt
  3.88 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています