Command Palette
Search for a command to run...
La superposition conduit à une mise à l'échelle neuronale robuste
Yizhou Liu Ziming Liu Jeff Gore

Résumé
Le succès des grands modèles linguistiques (LLM) actuels repose sur l’observation selon laquelle les modèles plus volumineux obtiennent de meilleurs résultats. Toutefois, l’origine de cette loi d’échelle neuronale — selon laquelle l’erreur diminue selon une loi de puissance en fonction de la taille du modèle — reste mal comprise. Nous proposons que la superposition de représentations, c’est-à-dire le fait que les LLM représentent un nombre de caractéristiques supérieur au nombre de dimensions disponibles, peut constituer un facteur clé de la réduction de l’erreur et du phénomène d’échelle neuronale. À partir d’un modèle simplifié développé par Anthropic, nous utilisons une régularisation par décroissance des poids (weight decay) pour contrôler le degré de superposition, ce qui nous permet d’étudier systématiquement l’évolution de l’erreur en fonction de la taille du modèle. Lorsque la superposition est faible, l’erreur suit une loi de puissance uniquement si les fréquences des caractéristiques dans les données suivent elles-mêmes une distribution en loi de puissance. En revanche, dans le cas d’une superposition forte, l’erreur suit généralement une décroissance inverse en fonction de la dimension du modèle, quelle que soit la distribution des fréquences, en raison des surappositions géométriques entre les vecteurs de représentation. Nous avons confirmé que les grands modèles linguistiques open source fonctionnent dans un régime de superposition forte, avec une décroissance de l’erreur inversement proportionnelle à la dimension du modèle, et que les lois d’échelle de Chinchilla sont également cohérentes avec ce comportement. Nos résultats identifient la superposition de représentations comme un moteur central des lois d’échelle neuronale, offrant ainsi des perspectives sur des questions telles que les conditions dans lesquelles ces lois peuvent être améliorées ou au contraire se rompre.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.