HyperAI超神経

Updesh インド語合成テキストデータセット

Updesh は、インド言語の大規模言語モデル (LLM) の事後トレーニングを容易にするために、2025 年に Microsoft によってリリースされたインド言語の合成テキスト データセットです。

データセットには、アッサム語、ベンガル語、グジャラート語、ヒンディー語、カンナダ語、マラヤーラム語、マラーティー語、ネパール語、オディア語、パンジャブ語、タミル語、テルグ語、ウルドゥー語の 6,800,000 件の推論データと 2,100,000 件の生成データが含まれています。

Updesh_beta.torrent
シーディング 1ダウンロード中 0ダウンロード完了 6総ダウンロード数 7
  • Updesh_beta/
    • README.md
      1.2 KB
    • README.txt
      2.4 KB
      • data/
        • Updesh_beta.zip
          16.09 GB