HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Tagen

Evolutionäre Strategien im Hyperskalen-Format

Evolutionäre Strategien im Hyperskalen-Format

Abstract

Wir stellen EGGROLL (Evolution Guided General Optimization via Low-rank Learning) vor, einen Evolution Strategies (ES)-Algorithmus, der es ermöglicht, die backpropagationsfreie Optimierung auf große Populationsgrößen zu skalieren, insbesondere für moderne große neuronale Netzwerke mit mehreren Milliarden Parametern. ES ist eine Klasse leistungsfähiger Blackbox-Optimierungsverfahren, die nicht-differenzierbare oder rauschbehaftete Ziele effizient behandeln können und aufgrund ihrer hervorragenden Skalierbarkeit durch Parallelisierung besonders geeignet sind. Der naive Einsatz von ES wird bei großen Skalen jedoch prohibitiv teuer, da die Erzeugung von Matrixstörungen und die batchweise Matrixmultiplikationen zur Berechnung der Vorwärtsdurchläufe pro Individuum hohe Rechen- und Speicherkosten verursachen. EGGROLL überwindet diese Engpässe, indem zufällige Matrizen mit geringem Rang generiert werden, um eine nieder-rangige Störung zu bilden, die anstelle der vollen Rang-Störung eingesetzt wird. Da die Gesamtaktualisierung eine Mittelung über eine Population von Arbeiter-Instanzen ist, bleibt die resultierende Aktualisierung dennoch von hohem Rang, jedoch mit erheblichen Einsparungen an Speicherplatz und Rechenzeit. Die zusätzliche Speicherkosten werden pro Schicht von auf reduziert, und die Kosten für einen Vorwärtsdurchlauf sinken von auf im Vergleich zu ES mit vollem Rang. Eine theoretische Analyse zeigt, dass unsere nieder-rangige Aktualisierung mit einer schnellen Konvergenzrate gegen die volle Rang-Aktualisierung konvergiert. Unsere Experimente belegen, dass (1) EGGROLL die Leistung von ES in tabula-rasa-RL-Szenarien nicht beeinträchtigt, obwohl es schneller ist, (2) es im Hinblick auf die Verbesserung der Schlussfolgerungsfähigkeit großer Sprachmodelle (LLM) mit GRPO wettbewerbsfähig ist, und (3) EGGROLL eine stabile Vortraining von nichtlinearen rekurrenten Sprachmodellen ermöglicht, die ausschließlich mit ganzzahligen Datentypen arbeiten.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Evolutionäre Strategien im Hyperskalen-Format | Forschungsarbeiten | HyperAI