HyperAIHyperAI

Command Palette

Search for a command to run...

Superposition führt zu robuster neuronaler Skalierung

Yizhou Liu Ziming Liu Jeff Gore

Abstract

Der Erfolg heutiger großer Sprachmodelle (Large Language Models, LLMs) beruht auf der Beobachtung, dass größere Modelle besser abschneiden. Die Ursache dieser neuronalen Skalierungsgesetze – bei denen der Verlust als Potenzgesetz mit wachsender Modellgröße abnimmt – bleibt jedoch unklar. Wir schlagen vor, dass die Darstellungssuperposition, also die Fähigkeit von LLMs, mehr Merkmale zu repräsentieren, als sie Dimensionen besitzen, ein zentraler Faktor für den Verlustverlauf und somit für die neuronale Skalierung sein kann. Basierend auf Anthropic’s Toy-Modell nutzen wir Weight Decay, um den Grad der Superposition zu steuern, wodurch wir systematisch untersuchen können, wie sich der Verlust mit der Modellgröße verhält. Wenn die Superposition schwach ist, folgt der Verlust nur dann einem Potenzgesetz, wenn die Frequenzen der Datemerkmale selbst potenzgesetzlich verteilt sind. Im Gegensatz dazu skaliert der Verlust unter starker Superposition generisch umgekehrt proportional zur Modelldimension über eine breite Klasse von Verteilungen der Merkmalsfrequenzen, bedingt durch geometrische Überlappungen zwischen Repräsentationsvektoren. Wir bestätigten, dass offengelegte LLMs sich im Regime starker Superposition befinden und einen umgekehrt proportionalen Verlustverlauf zur Modelldimension aufweisen, wobei die Chinchilla-Skalierungsgesetze ebenfalls mit diesem Verhalten konsistent sind. Unsere Ergebnisse identifizieren die Darstellungssuperposition als zentralen Treiber der neuronalen Skalierungsgesetze und liefern Erkenntnisse zu Fragen wie, unter welchen Bedingungen Skalierungsgesetze verbessert werden können und wann sie versagen.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Superposition führt zu robuster neuronaler Skalierung | Papers | HyperAI