HyperAIHyperAI

Command Palette

Search for a command to run...

Mischung-von-Rekursionen: Lernen dynamischer rekursiver Tiefen für adaptive Token-basierte Berechnung

Zusammenfassung

Das Skalieren von Sprachmodellen schafft beeindruckende Fähigkeiten, die damit verbundenen Rechenaufwand und Speicheranforderungen machen jedoch sowohl das Training als auch die Bereitstellung teuer. Bestehende Effizienzmaßnahmen richten sich in der Regel entweder auf das Teilen von Parametern oder auf adaptive Berechnung, wobei die Frage offen bleibt, wie beides gleichzeitig erreicht werden kann. Wir stellen Mixture-of-Recursions (MoR) vor, einen einheitlichen Rahmen, der beide Effizienzachsen innerhalb eines einzigen rekursiven Transformers kombiniert. MoR verwendet eine gemeinsame Schichtstapel über mehrere Rekursionsschritte hinweg, um Parameter-Effizienz zu erzielen, während leichtgewichtige Router durch dynamische Zuweisung unterschiedlicher Rekursionstiefen an einzelne Token adaptives Token-Level-Denken ermöglichen. Dies ermöglicht es MoR, quadratische Aufmerksamkeitsberechnungen nur unter den noch aktiven Token einer bestimmten Rekursionstiefe zu konzentrieren und verbessert die Speichereffizienz weiter, indem es selektiv nur deren Schlüssel-Wert-Paare zwischenspeichert. Neben diesen Kernmechanismen schlagen wir auch eine KV-Teilverwendungsversion vor, die KV-Paare aus dem ersten Rekursionsschritt wiederverwendet und speziell darauf ausgelegt ist, die Vorfüll-Latenz und den Speicherbedarf zu verringern. In Modellgrößen von 135 Millionen bis 1,7 Milliarden Parametern bildet MoR eine neue Pareto-Front: Bei gleichen Trainings-FLOPs und kleineren Modellgrößen senkt es erheblich die Validierungs-Perplexität und verbessert die Few-Shot-Akkuratesse, während es gleichzeitig eine höhere Durchsatzleistung als herkömmliche und bestehende rekursive Baseline-Modelle bietet. Diese Vorteile zeigen deutlich, dass MoR ein effektiver Weg zur Qualität großer Modelle ist, ohne dabei die Kosten großer Modelle zu verursachen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp