HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 19 jours

Les modèles de langage de diffusion sont des apprenants super-données

Jinjie Ni Qian Liu Longxu Dou Chao Du Zili Wang Hang Yan Tianyu Pang Michael Qizhe Shieh

Les modèles de langage de diffusion sont des apprenants super-données

Résumé

Dans des conditions de pré-entraînement strictement contrôlées, nous observons un phénomène de croisement : lorsque les données uniques sont limitées, les modèles linguistiques à diffusion (DLM) surpassent de manière cohérente les modèles autoregressifs (AR) lorsqu’ils sont entraînés sur un plus grand nombre d’époques. Ce point de croisement se décale vers l’arrière avec une quantité plus importante ou une qualité supérieure des données, se produit plus tôt avec des modèles plus grands, et persiste aussi bien dans les architectures denses que dans les architectures creuses. Nous attribuons ces gains à trois facteurs cumulatifs : (1) la modélisation indépendante de l’ordre des données, (2) un calcul extrêmement dense issu du débruitage itératif bidirectionnel, et (3) une augmentation de Monte Carlo intégrée ; le bruit d’entrée ou de paramètres améliore les performances des modèles AR sous contrainte de données, mais ne parvient pas à combler l’écart. À grande échelle, un DLM de 1,7 milliard de paramètres, entraîné avec un budget de calcul d’environ 1,5 trillion de tokens sur 10 milliards de tokens uniques en Python, dépasse un modèle autoregressif entraîné selon des conditions strictement équivalentes. En outre, un DLM de 1 milliard de paramètres atteint une précision supérieure à 56 % sur HellaSwag et supérieure à 33 % sur MMLU, en utilisant uniquement 1 milliard de tokens, sans aucune astuce particulière, simplement en répétant les données d’entraînement standard. Nous montrons également que l’augmentation de l’entropie croisée sur le jeu de validation n’implique pas nécessairement une dégradation des performances en tâches ultérieures dans ce cadre.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Les modèles de langage de diffusion sont des apprenants super-données | Articles de recherche | HyperAI