HyperAI

Abstract

Wir stellen Virtual Width Networks (VWN) vor, einen Rahmen, der die Vorteile breiter Darstellungen bietet, ohne die quadratisch ansteigenden Kosten einer Erhöhung der versteckten Schichtgröße zu verursachen. VWN trennt die Darstellungsweite von der Breite des Hauptmodells und erweitert den Embedding-Raum, während die Hauptmodellberechnung nahezu konstant bleibt. In unseren großskaligen Experimenten beschleunigt eine Vergrößerung um den Faktor 8 die Optimierung um mehr als das Zweifache bei der Vorhersage des nächsten Tokens und um das Dreifache bei der Vorhersage des zweiten folgenden Tokens. Der Vorteil verstärkt sich im Laufe der Trainingsdauer, da sowohl die Verlustlücke zunimmt als auch das Beschleunigungsverhältnis bei Konvergenz steigt, was zeigt, dass VWN nicht nur token-effizient ist, sondern mit zunehmender Skalierung zunehmend wirksamer wird. Darüber hinaus identifizieren wir eine annähernd logarithmisch-lineare Skalierungsbeziehung zwischen der virtuellen Breite und der Verlustreduktion, was eine erste empirische Grundlage und Motivation für die Untersuchung der virtuellen Breiten-Skalierung als neue Dimension der Effizienz großer Modelle bietet.

Virtuelle Breiten-Netzwerke

Seed Baisheng Li Banggu Wu Bole Ma Bowen Xiao Chaoyi Zhang Cheng Li Chengyi Wang Chenyin Xu Chi Zhang

Abstract

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Virtuelle Breiten-Netzwerke

Seed Baisheng Li Banggu Wu Bole Ma Bowen Xiao Chaoyi Zhang Cheng Li Chengyi Wang Chenyin Xu Chi Zhang109 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Seed Baisheng Li Banggu Wu Bole Ma Bowen Xiao Chaoyi Zhang Cheng Li Chengyi Wang Chenyin Xu Chi Zhang