HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données d'inférence Multitâche TxT360-3efforts

Discuss on Discord

Date

il y a 2 jours

Organization

Université Mohamed bin Zayed d'intelligence artificielle

Paper URL

2512.06201

License

CC BY 4.0

TxT360-3efforts est un jeu de données d'entraînement de modèles de langage à grande échelle pour l'ajustement fin supervisé (SFT), publié par l'Université Mohamed bin Zayed d'intelligence artificielle en 2025. L'article associé est… K2-V2 : Un LLM ouvert à 360° et axé sur le raisonnementL'objectif est de contrôler les trois niveaux de puissance d'inférence du modèle grâce à des modèles de conversation.

Cet ensemble de données comprend environ 10 millions d'échantillons et 10 milliards de jetons d'entraînement, couvrant neuf catégories de tâches : mathématiques, programmation, dialogue général, raisonnement STEM, suivi d'instructions, utilisation d'outils, trajectoire d'agent, modélisation de l'identité et alignement sécurisé. Il inclut un grand nombre de dialogues à plusieurs tours et d'échantillons avec des contraintes vérifiables. Les données proviennent d'ensembles de données publics sous licence open source ou de données synthétiques de haute qualité, et ont subi un filtrage de qualité rigoureux, une déduplication et une décontamination par rapport aux performances de référence. Les réponses sont principalement générées par GPT-OSS-120B à différentes intensités d'inférence. L'ensemble de données distingue explicitement les intensités d'inférence faibles, moyennes et élevées à l'aide d'un modèle de conversation unifié, permettant au modèle d'apprendre pendant l'entraînement à ajuster la longueur de génération et la profondeur d'inférence en fonction des différents besoins.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp