HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Tagen

Superposition führt zu robuster neuronaler Skalierung

Yizhou Liu Ziming Liu Jeff Gore

Superposition führt zu robuster neuronaler Skalierung

Abstract

Der Erfolg heutiger großer Sprachmodelle (Large Language Models, LLMs) beruht auf der Beobachtung, dass größere Modelle besser abschneiden. Die Ursache dieser neuronalen Skalierungsgesetze – bei denen der Verlust als Potenzgesetz mit wachsender Modellgröße abnimmt – bleibt jedoch unklar. Wir schlagen vor, dass die Darstellungssuperposition, also die Fähigkeit von LLMs, mehr Merkmale zu repräsentieren, als sie Dimensionen besitzen, ein zentraler Faktor für den Verlustverlauf und somit für die neuronale Skalierung sein kann. Basierend auf Anthropic’s Toy-Modell nutzen wir Weight Decay, um den Grad der Superposition zu steuern, wodurch wir systematisch untersuchen können, wie sich der Verlust mit der Modellgröße verhält. Wenn die Superposition schwach ist, folgt der Verlust nur dann einem Potenzgesetz, wenn die Frequenzen der Datemerkmale selbst potenzgesetzlich verteilt sind. Im Gegensatz dazu skaliert der Verlust unter starker Superposition generisch umgekehrt proportional zur Modelldimension über eine breite Klasse von Verteilungen der Merkmalsfrequenzen, bedingt durch geometrische Überlappungen zwischen Repräsentationsvektoren. Wir bestätigten, dass offengelegte LLMs sich im Regime starker Superposition befinden und einen umgekehrt proportionalen Verlustverlauf zur Modelldimension aufweisen, wobei die Chinchilla-Skalierungsgesetze ebenfalls mit diesem Verhalten konsistent sind. Unsere Ergebnisse identifizieren die Darstellungssuperposition als zentralen Treiber der neuronalen Skalierungsgesetze und liefern Erkenntnisse zu Fragen wie, unter welchen Bedingungen Skalierungsgesetze verbessert werden können und wann sie versagen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Superposition führt zu robuster neuronaler Skalierung | Forschungsarbeiten | HyperAI