
Abstract
Wir stellen Virtual Width Networks (VWN) vor, einen Rahmen, der die Vorteile breiter Darstellungen bietet, ohne die quadratisch ansteigenden Kosten einer Erhöhung der versteckten Schichtgröße zu verursachen. VWN trennt die Darstellungsweite von der Breite des Hauptmodells und erweitert den Embedding-Raum, während die Hauptmodellberechnung nahezu konstant bleibt. In unseren großskaligen Experimenten beschleunigt eine Vergrößerung um den Faktor 8 die Optimierung um mehr als das Zweifache bei der Vorhersage des nächsten Tokens und um das Dreifache bei der Vorhersage des zweiten folgenden Tokens. Der Vorteil verstärkt sich im Laufe der Trainingsdauer, da sowohl die Verlustlücke zunimmt als auch das Beschleunigungsverhältnis bei Konvergenz steigt, was zeigt, dass VWN nicht nur token-effizient ist, sondern mit zunehmender Skalierung zunehmend wirksamer wird. Darüber hinaus identifizieren wir eine annähernd logarithmisch-lineare Skalierungsbeziehung zwischen der virtuellen Breite und der Verlustreduktion, was eine erste empirische Grundlage und Motivation für die Untersuchung der virtuellen Breiten-Skalierung als neue Dimension der Effizienz großer Modelle bietet.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.