HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 5 jours

Échelle du raisonnement latent par modèles linguistiques bouclés

Échelle du raisonnement latent par modèles linguistiques bouclés

Résumé

Les grands modèles linguistiques modernes sont entraînés pour « penser » principalement par génération explicite de texte, comme la chaîne de raisonnement (chain-of-thought, CoT), qui reporte le raisonnement à la phase post-entraînement et sous-exploite les données d’entraînement préalable. Nous présentons et mettons à disposition open source Ouro, nommé d’après le serpent Ouroboros récursif, une famille de modèles linguistiques pré-entraînés à boucle (LoopLM) qui intègrent le raisonnement directement dans la phase d’entraînement préalable grâce à (i) un calcul itératif dans l’espace latent, (ii) un objectif régularisé par entropie pour une allocation apprise de profondeur du raisonnement, et (iii) une mise à l’échelle jusqu’à 7,7 billions de tokens. Les modèles Ouro 1,4B et 2,6B atteignent des performances supérieures, équivalentes aux résultats obtenus par les meilleurs modèles actuels (SOTA) de jusqu’à 12 milliards de paramètres sur une large gamme de benchmarks. À travers des expériences contrôlées, nous montrons que cet avantage ne provient pas d’une capacité accrue à stocker des connaissances, mais d’une meilleure capacité à manipuler les connaissances. Nous démontrons également que les traces de raisonnement produites par LoopLM sont plus alignées avec les sorties finales que celles générées par la CoT explicite. Nous espérons que nos résultats mettent en lumière le potentiel du LoopLM comme nouvelle direction d’échelle dans l’ère du raisonnement. Le modèle est disponible à l’adresse : http://ouro-llm.github.io.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp