Grokking
Im Bereich des Deep LearningGrokking bezeichnet ein Phänomen, bei dem neuronale Netzwerke auch dann noch eine gute Generalisierung erreichen können, wenn der Trainingsfehler über einen langen Zeitraum hinweg abnimmt. Das Interessante am Grokking-Phänomen ist, dass es ein dynamisches Phänomen ist – das heißt, die Lücke zwischen Trainingsverlust und Testverlust besteht nur in der Mitte des Trainings; Ein Netzwerk, das in der Lage ist, zu verstehen, wird schließlich verallgemeinern, sodass sowohl der Trainingsverlust als auch der Testverlust am Ende des Trainings sehr gering sind.
Dieses Phänomen lässt darauf schließen, dass das neuronale Netzwerk in der Anfangsphase hauptsächlich einige grundlegende Merkmale oder Muster der Daten lernt, was zu einer raschen Verringerung der Trainingsverluste führt. In den nachfolgenden Phasen beginnt das Netzwerk nach und nach, die tieferen Merkmale und die Struktur der Daten zu verstehen, sodass der Testverlust deutlich abnimmt. Dieses Phänomen kann bedeuten, dass das Netzwerk von einer einfachen Merkmalslernphase zu einer komplexeren Merkmalslernphase übergeht, oder es kann einige dynamische Änderungen im Netzwerklernprozess widerspiegeln.
„Grokking als Übergang von träger zu gehaltvoller Trainingsdynamik“In dem Artikel wird vorgeschlagen, dass das Grokking-Phänomen (bei dem der Testverlust eines neuronalen Netzwerks nach dem Trainingsverlust erheblich abnimmt) auf den Übergang vom anfänglichen „trägen“ Training zum anschließenden „umfangreichen“ Merkmalslernen zurückzuführen ist. Mithilfe einer polynomischen Regression auf einem zweischichtigen Netzwerk zeigen die Autoren, dass Grokking auftritt, wenn das Netzwerk von der Anpassung der Daten mit anfänglichen Merkmalen zum Erlernen neuer Merkmale übergeht, um eine bessere Generalisierung zu erreichen. Sie gehen davon aus, dass die Geschwindigkeit des Merkmalslernens und die anfängliche Merkmalsausrichtung der Schlüssel zu dieser verzögerten Generalisierung sind, ein Konzept, das möglicherweise auf komplexere neuronale Netzwerke anwendbar ist.
Das Grokking-Phänomen kann als Übergang vom Kernel- zum Feature-Learning-Mechanismus betrachtet werden.Die Besonderheit besteht darin, dass der Trainingsverlust des neuronalen Netzwerks deutlich früher abnimmt als der Testverlust. Dies kann passieren, wenn das Netzwerk von einer Lazy-Training-Dynamik zu einem reichhaltigeren Feature-Learning-Modus wechselt. Grokking kann durch den Übergang vom Kernel-Mechanismus zum Feature-Learning-Mechanismus ausgelöst werden.
Verweise
【1】„Grokking als Übergang von träger zu gehaltvoller Trainingsdynamik“——In ICLR 2024 enthalten