Command Palette
Search for a command to run...
Nemotron-Post-Training-Dataset-v2 トレーニング後データセット
Nemotron-Post-Training-Dataset-v2は、NVIDIAが既存の学習後コーパスに基づいて2025年にリリースしたバージョンです。このデータセットは、SFTおよびRLデータを5つのターゲット言語(スペイン語/フランス語/ドイツ語/イタリア語/日本語)に拡張し、数学、コード、STEM(科学、技術、工学、数学)、対話などのシナリオを網羅しています。これらのシナリオは、モデルの推論および指示追従能力の向上に使用されます。また、メタデータベースのフィルタリング機能と典型的なサブセット例も提供しています。このデータセットは、Nemotron-Nano-9B-v2シリーズのリリースおよびアライメント研究に役立ち、ユーザーが実験を再現してさらに改善することを容易にする、公開学習後コーパスの1つです。関連する論文結果は以下です。NVIDIA Nemotron Nano 2: 正確で効率的なハイブリッド Mamba-Transformer 推論モデル”。
スクリーニング可能なサンプル分散型メタデータ付き:
- フィルターダウンロード: カテゴリ/言語/ソースモデルなどのメタデータによる迅速なフィルタリングとダウンロードをサポートします。
- カテゴリーとサイズ(値):数学(239,467); コード(175,000); ステム(355,000); チャット(627,720)
- 多言語対応:日本語、ドイツ語、イタリア語、スペイン語、フランス語
- ソース: 複数の大規模モデル (DeepSeek-R1-0528、Qwen 2.5/3 シリーズなど) から合成
- 注釈形式: 一部のサンプルでは「推論オンまたはオフ」の2つの回答が提供されます。推論トレースは英語です。
Nemotron-Post-Training-Dataset-v2.torrent
シーディング 1ダウンロード中 0ダウンロード完了 25総ダウンロード数 75