Command Palette
Search for a command to run...
Échelle du raisonnement latent par modèles linguistiques bouclés

Résumé
Les grands modèles linguistiques modernes sont entraînés pour « penser » principalement par génération explicite de texte, comme la chaîne de raisonnement (chain-of-thought, CoT), qui reporte le raisonnement à la phase post-entraînement et sous-exploite les données d’entraînement préalable. Nous présentons et mettons à disposition open source Ouro, nommé d’après le serpent Ouroboros récursif, une famille de modèles linguistiques pré-entraînés à boucle (LoopLM) qui intègrent le raisonnement directement dans la phase d’entraînement préalable grâce à (i) un calcul itératif dans l’espace latent, (ii) un objectif régularisé par entropie pour une allocation apprise de profondeur du raisonnement, et (iii) une mise à l’échelle jusqu’à 7,7 billions de tokens. Les modèles Ouro 1,4B et 2,6B atteignent des performances supérieures, équivalentes aux résultats obtenus par les meilleurs modèles actuels (SOTA) de jusqu’à 12 milliards de paramètres sur une large gamme de benchmarks. À travers des expériences contrôlées, nous montrons que cet avantage ne provient pas d’une capacité accrue à stocker des connaissances, mais d’une meilleure capacité à manipuler les connaissances. Nous démontrons également que les traces de raisonnement produites par LoopLM sont plus alignées avec les sorties finales que celles générées par la CoT explicite. Nous espérons que nos résultats mettent en lumière le potentiel du LoopLM comme nouvelle direction d’échelle dans l’ère du raisonnement. Le modèle est disponible à l’adresse : http://ouro-llm.github.io.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.