HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

UltraMemV2: Speicher-Netzwerke mit Skalierung auf 120B Parameter und überlegener Lernleistung für lange Kontexte

UltraMemV2: Speicher-Netzwerke mit Skalierung auf 120B Parameter und überlegener Lernleistung für lange Kontexte

Abstract

Während Mixture-of-Experts-(MoE)-Modelle aufgrund der Aktivierung nur von Teilmengen von Parametern eine bemerkenswerte Effizienz erreichen, leiden sie unter hohen Speicherzugriffs-Kosten während der Inferenz. Speicher-Schicht-Architekturen bieten eine vielversprechende Alternative mit äußerst geringen Speicherzugriffen, doch bisherige Ansätze wie UltraMem erreichten lediglich die Leistung von 2-Experten-MoE-Modellen und lagen deutlich hinter den aktuell führenden Konfigurationen mit 8 Experten zurück. Wir stellen UltraMemV2 vor, eine neu gestaltete Speicher-Schicht-Architektur, die diese Leistungs-Lücke schließt. Unser Ansatz integriert fünf zentrale Verbesserungen: die Einbindung von Speicherschichten in jede Transformer-Block-Struktur, die Vereinfachung der Wert-Erweiterung durch einzelne lineare Projektionen, die Übernahme der FFN-basierten Wertverarbeitung aus PEER, eine fundierte Parameter-Initialisierung sowie die Neubewertung des Verhältnisses zwischen Speicher- und FFN-Berechnung. Durch umfassende Evaluation zeigen wir, dass UltraMemV2 unter gleicher Berechnungs- und Parameteranzahl die Leistung von 8-Experten-MoE-Modellen erreicht, jedoch signifikant geringere Speicherzugriffe aufweist. Insbesondere zeigt UltraMemV2 eine überlegene Leistung bei speicherintensiven Aufgaben: +1,6 Punkte bei der Langtext-Memorisation, +6,2 Punkte bei der Mehrrunden-Memorisation und +7,9 Punkte bei der Kontextlernleistung. Wir validieren unseren Ansatz im großen Maßstab an Modellen mit bis zu 2,5 B aktivierten Parametern aus insgesamt 120 B Parametern und zeigen, dass die Aktivierungs-Dichte stärkeren Einfluss auf die Leistung hat als die Gesamtanzahl an sparsen Parametern. Unsere Arbeit bringt Speicher-Schicht-Architekturen auf das Leistungsniveau aktueller Spitzen-MoE-Modelle und stellt eine überzeugende Alternative für effiziente sparsame Berechnung dar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
UltraMemV2: Speicher-Netzwerke mit Skalierung auf 120B Parameter und überlegener Lernleistung für lange Kontexte | Forschungsarbeiten | HyperAI