HyperAIHyperAI

Command Palette

Search for a command to run...

Où trouver le Grokking dans la préformation des LLM ? Surveillance de la mémorisation à la généralisation sans test

Ziyue Li Chenrui Fan Tianyi Zhou

Résumé

Le phénomène de grokking, c'est-à-dire l'amélioration continue des performances en test bien après la convergence de la perte d'entraînement, a été récemment observé lors de l'entraînement des réseaux neuronaux, rendant mécanisme de généralisation et d'autres capacités émergentes telles que le raisonnement mystérieux. Alors que les études précédentes entraînaient généralement de petits modèles sur quelques tâches ludiques ou très spécifiques pendant des milliers d'époques, nous menons la première étude sur le grokking lors du pré-entraînement en une seule passe d'un grand modèle linguistique (LLM) de 7 milliards de paramètres, à savoir OLMoE. Nous calculons la perte d'entraînement et évaluons la généralisation sur diverses tâches de référence, incluant le raisonnement mathématique, la génération de code et les tâches de récupération de connaissances communes ou spécifiques à un domaine.Notre étude vérifie pour la première fois que le grokking se produit toujours lors du pré-entraînement des grands modèles fondationnels, bien que différentes données puissent entrer dans des phases de grokking de manière asynchrone. Nous démythifions davantage l'"émergence de la généralisation" du grokking en examinant les dynamiques internes du LLM. Plus précisément, nous constatons que les parcours des échantillons d'entraînement (c'est-à-dire les choix d'experts à travers les couches) évoluent du hasard, spécifique à chaque instance, vers une structure plus organisée et partageable entre les échantillons au cours du grokking. De plus, la complexité du parcours d'un échantillon diminue malgré la perte convergente. Ces observations indiquent une transition de la mémorisation à la généralisation, offrant une explication mécanique de la généralisation retardée. Dans cette étude, nous développons deux nouvelles métriques pour quantifier la distance entre les parcours et la complexité d'un seul parcours. Nous montrons leur capacité à prédire l'amélioration de la généralisation sur diverses tâches en aval. Elles sont efficaces, simples à calculer et dépendent uniquement des données d'entraînement. Par conséquent, elles ont une valeur pratique pour le pré-entraînement, permettant de surveiller les performances en généralisation sans ajustement fin ni test.Théoriquement, nous démontrons que des parcours plus structurés réduisent la complexité du modèle et améliorent la borne de généralisation.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp