Date

il y a 5 mois

Organisation

URL du document

2512.06201

Licence

CC BY 4.0

Balises

Traitement Du Langage Naturel

Reasoning

TxT360-3efforts est un jeu de données d'entraînement de modèles de langage à grande échelle pour l'ajustement fin supervisé (SFT), publié par l'Université Mohamed bin Zayed d'intelligence artificielle en 2025. L'article associé est… K2-V2 : Un LLM ouvert à 360° et axé sur le raisonnementL'objectif est de contrôler les trois niveaux de puissance d'inférence du modèle grâce à des modèles de conversation. Cet ensemble de données comprend environ 10 millions d'échantillons et 10 milliards de jetons d'entraînement, couvrant neuf catégories de tâches : mathématiques, programmation, dialogue général, raisonnement STEM, suivi d'instructions, utilisation d'outils, trajectoire d'agent, modélisation de l'identité et alignement sécurisé. Il inclut un grand nombre de dialogues à plusieurs tours et d'échantillons avec des contraintes vérifiables. Les données proviennent d'ensembles de données publics sous licence open source ou de données synthétiques de haute qualité, et ont subi un filtrage de qualité rigoureux, une déduplication et une décontamination par rapport aux performances de référence. Les réponses sont principalement générées par GPT-OSS-120B à différentes intensités d'inférence. L'ensemble de données distingue explicitement les intensités d'inférence faibles, moyennes et élevées à l'aide d'un modèle de conversation unifié, permettant au modèle d'apprendre pendant l'entraînement à ajuster la longueur de génération et la profondeur d'inférence en fonction des différents besoins.

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

undefined

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

il y a 5 mois

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

il y a 5 mois

Ensemble De Données De Détection De Contrebande Par Rayons X

il y a 5 mois

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

il y a 6 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Discuter sur Discord

Date

il y a 5 mois

Organisation

URL du document

2512.06201

Licence

CC BY 4.0

Balises

Traitement Du Langage Naturel

Reasoning

undefined

zh-meme-sft-8k Ensemble De Données Sur La Culture Des Mèmes Internet Chinois

il y a 3 mois

Ensemble De Données Synthétiques d'inférence Générale CHIMERA

il y a 4 mois

Ensemble De Données Du Problème d'inférence Open-RL

il y a 4 mois

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

il y a 5 mois

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

il y a 5 mois

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

il y a 5 mois

Ensemble De Données De Détection De Contrebande Par Rayons X

il y a 5 mois

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

il y a 6 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Ensemble De Données d'inférence Multitâche TxT360-3efforts

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données d'inférence Multitâche TxT360-3efforts

undefined

zh-meme-sft-8k Ensemble De Données Sur La Culture Des Mèmes Internet Chinois

Ensemble De Données Synthétiques d'inférence Générale CHIMERA

Ensemble De Données Du Problème d'inférence Open-RL

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

Ensemble De Données De Détection De Contrebande Par Rayons X

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données d'inférence Multitâche TxT360-3efforts

undefined

zh-meme-sft-8k Ensemble De Données Sur La Culture Des Mèmes Internet Chinois

Ensemble De Données Synthétiques d'inférence Générale CHIMERA

Ensemble De Données Du Problème d'inférence Open-RL

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

Ensemble De Données De Détection De Contrebande Par Rayons X

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

Créer de l'IA avec l'IA

HyperAI Newsletters

undefined

zh-meme-sft-8k Ensemble De Données Sur La Culture Des Mèmes Internet Chinois

Ensemble De Données Synthétiques d'inférence Générale CHIMERA

Ensemble De Données Du Problème d'inférence Open-RL

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

Ensemble De Données De Détection De Contrebande Par Rayons X

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

undefined

zh-meme-sft-8k Ensemble De Données Sur La Culture Des Mèmes Internet Chinois

Ensemble De Données Synthétiques d'inférence Générale CHIMERA

Ensemble De Données Du Problème d'inférence Open-RL

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

Ensemble De Données De Détection De Contrebande Par Rayons X

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro