HyperAI

Grokking

Dans le domaine de l'apprentissage profond,Grokking fait référence à un phénomène dans lequel les réseaux neuronaux peuvent atteindre une bonne généralisation même après que l'erreur d'entraînement se soit atténuée pendant une longue période. Ce qui est intéressant dans le phénomène de gnokking, c’est qu’il s’agit d’un phénomène dynamique — c’est-à-dire que l’écart entre la perte d’entraînement et la perte de test n’existe qu’au milieu de l’entraînement ; un réseau capable de comprendre finira par généraliser de sorte que la perte d'entraînement et la perte de test seront très faibles à la fin de l'entraînement.

Ce phénomène suggère que le réseau neuronal peut principalement apprendre certaines caractéristiques ou modèles de base des données au stade initial, ce qui entraîne une diminution rapide de la perte d’apprentissage. Au cours des étapes suivantes, le réseau commence à comprendre progressivement les caractéristiques et la structure plus profondes des données, de sorte que la perte de test commencera à diminuer de manière significative. Ce phénomène peut signifier que le réseau passe d’une étape d’apprentissage de fonctionnalités simple à une étape d’apprentissage de fonctionnalités plus complexe, ou il peut refléter certains changements dynamiques dans le processus d’apprentissage du réseau.

« Grokking comme transition d'une dynamique d'entraînement paresseuse à une dynamique d'entraînement riche »L'article propose que le phénomène de grokking (où la perte de test d'un réseau neuronal diminue considérablement après la perte d'entraînement) est dû à la transition de l'entraînement initial « paresseux » à l'apprentissage ultérieur des fonctionnalités « riches ». En utilisant la régression polynomiale sur un réseau à deux couches, les auteurs montrent que le grokking se produit lorsque le réseau passe de l'ajustement des données avec des caractéristiques initiales à l'apprentissage de nouvelles caractéristiques pour obtenir une meilleure généralisation. Ils suggèrent que le taux d’apprentissage des fonctionnalités et l’alignement initial des fonctionnalités sont la clé de cette généralisation différée, un concept qui peut être applicable à des réseaux neuronaux plus complexes.

Le phénomène de grokking peut être considéré comme une transition du noyau au mécanisme d'apprentissage des fonctionnalités.La caractéristique est que la perte d'entraînement du réseau neuronal diminue significativement plus tôt que la perte de test, ce qui peut se produire lorsque le réseau passe d'une dynamique d'entraînement paresseuse à un mode d'apprentissage de fonctionnalités plus riche. Le Grokking peut être déclenché par la transition du mécanisme du noyau au mécanisme d'apprentissage des fonctionnalités.

Références

【1】« Grokking comme transition d'une dynamique d'entraînement paresseuse à une dynamique d'entraînement riche »——Inclus dans l'ICLR 2024