Command Palette
Search for a command to run...
UltraMemV2: Speicher-Netzwerke mit Skalierung auf 120B Parameter und überlegener Lernleistung für lange Kontexte

Abstract
Während Mixture-of-Experts-(MoE)-Modelle aufgrund der Aktivierung nur von Teilmengen von Parametern eine bemerkenswerte Effizienz erreichen, leiden sie unter hohen Speicherzugriffs-Kosten während der Inferenz. Speicher-Schicht-Architekturen bieten eine vielversprechende Alternative mit äußerst geringen Speicherzugriffen, doch bisherige Ansätze wie UltraMem erreichten lediglich die Leistung von 2-Experten-MoE-Modellen und lagen deutlich hinter den aktuell führenden Konfigurationen mit 8 Experten zurück. Wir stellen UltraMemV2 vor, eine neu gestaltete Speicher-Schicht-Architektur, die diese Leistungs-Lücke schließt. Unser Ansatz integriert fünf zentrale Verbesserungen: die Einbindung von Speicherschichten in jede Transformer-Block-Struktur, die Vereinfachung der Wert-Erweiterung durch einzelne lineare Projektionen, die Übernahme der FFN-basierten Wertverarbeitung aus PEER, eine fundierte Parameter-Initialisierung sowie die Neubewertung des Verhältnisses zwischen Speicher- und FFN-Berechnung. Durch umfassende Evaluation zeigen wir, dass UltraMemV2 unter gleicher Berechnungs- und Parameteranzahl die Leistung von 8-Experten-MoE-Modellen erreicht, jedoch signifikant geringere Speicherzugriffe aufweist. Insbesondere zeigt UltraMemV2 eine überlegene Leistung bei speicherintensiven Aufgaben: +1,6 Punkte bei der Langtext-Memorisation, +6,2 Punkte bei der Mehrrunden-Memorisation und +7,9 Punkte bei der Kontextlernleistung. Wir validieren unseren Ansatz im großen Maßstab an Modellen mit bis zu 2,5 B aktivierten Parametern aus insgesamt 120 B Parametern und zeigen, dass die Aktivierungs-Dichte stärkeren Einfluss auf die Leistung hat als die Gesamtanzahl an sparsen Parametern. Unsere Arbeit bringt Speicher-Schicht-Architekturen auf das Leistungsniveau aktueller Spitzen-MoE-Modelle und stellt eine überzeugende Alternative für effiziente sparsame Berechnung dar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.