Superposition führt zu robuster neuronaler Skalierung
Yizhou Liu Ziming Liu Jeff Gore

Abstract
Der Erfolg heutiger großer Sprachmodelle (Large Language Models, LLMs) beruht auf der Beobachtung, dass größere Modelle besser abschneiden. Die Ursache dieser neuronalen Skalierungsgesetze – bei denen der Verlust als Potenzgesetz mit wachsender Modellgröße abnimmt – bleibt jedoch unklar. Wir schlagen vor, dass die Darstellungssuperposition, also die Fähigkeit von LLMs, mehr Merkmale zu repräsentieren, als sie Dimensionen besitzen, ein zentraler Faktor für den Verlustverlauf und somit für die neuronale Skalierung sein kann. Basierend auf Anthropic’s Toy-Modell nutzen wir Weight Decay, um den Grad der Superposition zu steuern, wodurch wir systematisch untersuchen können, wie sich der Verlust mit der Modellgröße verhält. Wenn die Superposition schwach ist, folgt der Verlust nur dann einem Potenzgesetz, wenn die Frequenzen der Datemerkmale selbst potenzgesetzlich verteilt sind. Im Gegensatz dazu skaliert der Verlust unter starker Superposition generisch umgekehrt proportional zur Modelldimension über eine breite Klasse von Verteilungen der Merkmalsfrequenzen, bedingt durch geometrische Überlappungen zwischen Repräsentationsvektoren. Wir bestätigten, dass offengelegte LLMs sich im Regime starker Superposition befinden und einen umgekehrt proportionalen Verlustverlauf zur Modelldimension aufweisen, wobei die Chinchilla-Skalierungsgesetze ebenfalls mit diesem Verhalten konsistent sind. Unsere Ergebnisse identifizieren die Darstellungssuperposition als zentralen Treiber der neuronalen Skalierungsgesetze und liefern Erkenntnisse zu Fragen wie, unter welchen Bedingungen Skalierungsgesetze verbessert werden können und wann sie versagen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.