HyperAI

Ensemble De Données Textuelles Synthétiques En Updesh Indic

Date

il y a 9 jours

Taille

16.09 GB

Organisation

Microsoft

URL de publication

huggingface.co

Updesh est un ensemble de données de texte synthétique en langue indienne publié par Microsoft en 2025 pour faciliter la post-formation des grands modèles linguistiques (LLM) pour les langues indiennes.

L'ensemble de données contient 6 800 000 données d'inférence et 2 100 000 données générées dans les langues suivantes : assamais, bengali, gujarati, hindi, kannada, malayalam, marathi, népalais, odia, punjabi, tamoul, télougou et ourdou.

Updesh_beta.torrent
Partage 1Téléchargement 0Terminés 6Téléchargements totaux 7
  • Updesh_beta/
    • README.md
      1.2 KB
    • README.txt
      2.4 KB
      • data/
        • Updesh_beta.zip
          16.09 GB