HyperAIHyperAI

Command Palette

Search for a command to run...

vor 9 Tagen

Virtuelle Breiten-Netzwerke

Virtuelle Breiten-Netzwerke

Abstract

Wir stellen Virtual Width Networks (VWN) vor, einen Rahmen, der die Vorteile breiter Darstellungen bietet, ohne die quadratisch ansteigenden Kosten einer Erhöhung der versteckten Schichtgröße zu verursachen. VWN trennt die Darstellungsweite von der Breite des Hauptmodells und erweitert den Embedding-Raum, während die Hauptmodellberechnung nahezu konstant bleibt. In unseren großskaligen Experimenten beschleunigt eine Vergrößerung um den Faktor 8 die Optimierung um mehr als das Zweifache bei der Vorhersage des nächsten Tokens und um das Dreifache bei der Vorhersage des zweiten folgenden Tokens. Der Vorteil verstärkt sich im Laufe der Trainingsdauer, da sowohl die Verlustlücke zunimmt als auch das Beschleunigungsverhältnis bei Konvergenz steigt, was zeigt, dass VWN nicht nur token-effizient ist, sondern mit zunehmender Skalierung zunehmend wirksamer wird. Darüber hinaus identifizieren wir eine annähernd logarithmisch-lineare Skalierungsbeziehung zwischen der virtuellen Breite und der Verlustreduktion, was eine erste empirische Grundlage und Motivation für die Untersuchung der virtuellen Breiten-Skalierung als neue Dimension der Effizienz großer Modelle bietet.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Virtuelle Breiten-Netzwerke | Forschungsarbeiten | HyperAI