HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

Loong : Synthétiser à grande échelle des chaînes de raisonnement longues grâce à des vérificateurs

Xingyue Huang Rishabh Gregor Franke Ziyi Yang Jiamu Bai Weijie Bai Jinhe Bi et al

Loong : Synthétiser à grande échelle des chaînes de raisonnement longues grâce à des vérificateurs

Résumé

Les progrès récents des grands modèles linguistiques (LLM) ont montré que leurs capacités de raisonnement peuvent être significativement améliorées grâce à l’apprentissage par renforcement à récompense vérifiable (RLVR), notamment dans des domaines tels que les mathématiques et la programmation, où la correction absolue peut être évaluée automatiquement. Toutefois, étendre ce succès à d’autres domaines exigeant un raisonnement intensif demeure difficile en raison du manque de jeux de données de haute qualité, vérifiables, ainsi que du coût élevé de la supervision humaine. Dans ce travail, nous introduisons le projet Loong : un cadre open source pour la génération à grande échelle de données synthétiques et leur vérification dans une large variété de domaines exigeant un raisonnement intensif. Ce cadre repose sur deux composants clés : (1) LoongBench, un jeu de données initial soigneusement sélectionné comprenant 8 729 exemples vérifiés par des humains répartis sur 12 domaines (par exemple, mathématiques avancées, chimie, logique), chacun associé à un code exécutable et à des métadonnées riches ; et (2) LoongEnv, un environnement modulaire de génération de données synthétiques qui prend en charge plusieurs stratégies d’instruction (prompting) afin de produire de nouveaux triplets question-réponse-code. Ensemble, ces composants forment une boucle agent-environnement permettant l’apprentissage par renforcement, dans laquelle un agent basé sur un LLM est récompensé pour générer des solutions en chaîne de raisonnement (Chain-of-Thought, CoT) conformes aux résultats obtenus par exécution du code. Expérimentalement, nous évaluons LoongBench sur une large gamme de LLM open source et propriétaires afin d’analyser la couverture de domaines et d’identifier les goulets d’étranglement de performance. En outre, nous menons une analyse approfondie des données synthétiques générées par LoongEnv, en examinant leur correction, leur difficulté et leur diversité.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Loong : Synthétiser à grande échelle des chaînes de raisonnement longues grâce à des vérificateurs | Articles de recherche | HyperAI