il y a 5 jours

Échelle du raisonnement latent par modèles linguistiques bouclés

Rui-Jie Zhu Zixuan Wang Kai Hua Tianyu Zhang Ziniu Li Haoran Que Boyi Wei Zixin Wen Fan Yin He Xing

Résumé

Les grands modèles linguistiques modernes sont entraînés pour « penser » principalement par génération explicite de texte, comme la chaîne de raisonnement (chain-of-thought, CoT), qui reporte le raisonnement à la phase post-entraînement et sous-exploite les données d’entraînement préalable. Nous présentons et mettons à disposition open source Ouro, nommé d’après le serpent Ouroboros récursif, une famille de modèles linguistiques pré-entraînés à boucle (LoopLM) qui intègrent le raisonnement directement dans la phase d’entraînement préalable grâce à (i) un calcul itératif dans l’espace latent, (ii) un objectif régularisé par entropie pour une allocation apprise de profondeur du raisonnement, et (iii) une mise à l’échelle jusqu’à 7,7 billions de tokens. Les modèles Ouro 1,4B et 2,6B atteignent des performances supérieures, équivalentes aux résultats obtenus par les meilleurs modèles actuels (SOTA) de jusqu’à 12 milliards de paramètres sur une large gamme de benchmarks. À travers des expériences contrôlées, nous montrons que cet avantage ne provient pas d’une capacité accrue à stocker des connaissances, mais d’une meilleure capacité à manipuler les connaissances. Nous démontrons également que les traces de raisonnement produites par LoopLM sont plus alignées avec les sorties finales que celles générées par la CoT explicite. Nous espérons que nos résultats mettent en lumière le potentiel du LoopLM comme nouvelle direction d’échelle dans l’ère du raisonnement. Le modèle est disponible à l’adresse : http://ouro-llm.github.io.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Échelle du raisonnement latent par modèles linguistiques bouclés

Rui-Jie Zhu Zixuan Wang Kai Hua Tianyu Zhang Ziniu Li Haoran Que Boyi Wei Zixin Wen Fan Yin He Xing23 more

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Rui-Jie Zhu Zixuan Wang Kai Hua Tianyu Zhang Ziniu Li Haoran Que Boyi Wei Zixin Wen Fan Yin He Xing