Command Palette

Search for a command to run...

Nemotron-Post-Training-Dataset-v2 トレーニング後データセット

日付

2ヶ月前

サイズ

36.78 GB

組織

エヌビディア

論文URL

2508.14444

ライセンス

CC BY 4.0

Nemotron-Post-Training-Dataset-v2は、NVIDIAが既存の学習後コーパスに基づいて2025年にリリースしたバージョンです。このデータセットは、SFTおよびRLデータを5つのターゲット言語(スペイン語/フランス語/ドイツ語/イタリア語/日本語)に拡張し、数学、コード、STEM(科学、技術、工学、数学)、対話などのシナリオを網羅しています。これらのシナリオは、モデルの推論および指示追従能力の向上に使用されます。また、メタデータベースのフィルタリング機能と典型的なサブセット例も提供しています。このデータセットは、Nemotron-Nano-9B-v2シリーズのリリースおよびアライメント研究に役立ち、ユーザーが実験を再現してさらに改善することを容易にする、公開学習後コーパスの1つです。関連する論文結果は以下です。NVIDIA Nemotron Nano 2: 正確で効率的なハイブリッド Mamba-Transformer 推論モデル”。

スクリーニング可能なサンプル分散型メタデータ付き:

  • フィルターダウンロード: カテゴリ/言語/ソースモデルなどのメタデータによる迅速なフィルタリングとダウンロードをサポートします。
  • カテゴリーとサイズ(値):数学(239,467); コード(175,000); ステム(355,000); チャット(627,720)
  • 多言語対応:日本語、ドイツ語、イタリア語、スペイン語、フランス語
  • ソース: 複数の大規模モデル (DeepSeek-R1-0528、Qwen 2.5/3 シリーズなど) から合成
  • 注釈形式: 一部のサンプルでは「推論オンまたはオフ」の2つの回答が提供されます。推論トレースは英語です。

Nemotron-Post-Training-Dataset-v2.torrent
シーディング 1ダウンロード中 0ダウンロード完了 25総ダウンロード数 75
  • Nemotron-Post-Training-Dataset-v2/
    • README.md
      1.94 KB
    • README.txt
      3.88 KB
      • data/
        • Nemotron-Post-Training-Dataset-v2.zip
          36.78 GB

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています