Mischung-von-Rekursionen: Lernen dynamischer rekursiver Tiefen für adaptive Token-basierte Berechnung

Das Skalieren von Sprachmodellen schafft beeindruckende Fähigkeiten, die damit verbundenen Rechenaufwand und Speicheranforderungen machen jedoch sowohl das Training als auch die Bereitstellung teuer. Bestehende Effizienzmaßnahmen richten sich in der Regel entweder auf das Teilen von Parametern oder auf adaptive Berechnung, wobei die Frage offen bleibt, wie beides gleichzeitig erreicht werden kann. Wir stellen Mixture-of-Recursions (MoR) vor, einen einheitlichen Rahmen, der beide Effizienzachsen innerhalb eines einzigen rekursiven Transformers kombiniert. MoR verwendet eine gemeinsame Schichtstapel über mehrere Rekursionsschritte hinweg, um Parameter-Effizienz zu erzielen, während leichtgewichtige Router durch dynamische Zuweisung unterschiedlicher Rekursionstiefen an einzelne Token adaptives Token-Level-Denken ermöglichen. Dies ermöglicht es MoR, quadratische Aufmerksamkeitsberechnungen nur unter den noch aktiven Token einer bestimmten Rekursionstiefe zu konzentrieren und verbessert die Speichereffizienz weiter, indem es selektiv nur deren Schlüssel-Wert-Paare zwischenspeichert. Neben diesen Kernmechanismen schlagen wir auch eine KV-Teilverwendungsversion vor, die KV-Paare aus dem ersten Rekursionsschritt wiederverwendet und speziell darauf ausgelegt ist, die Vorfüll-Latenz und den Speicherbedarf zu verringern. In Modellgrößen von 135 Millionen bis 1,7 Milliarden Parametern bildet MoR eine neue Pareto-Front: Bei gleichen Trainings-FLOPs und kleineren Modellgrößen senkt es erheblich die Validierungs-Perplexität und verbessert die Few-Shot-Akkuratesse, während es gleichzeitig eine höhere Durchsatzleistung als herkömmliche und bestehende rekursive Baseline-Modelle bietet. Diese Vorteile zeigen deutlich, dass MoR ein effektiver Weg zur Qualität großer Modelle ist, ohne dabei die Kosten großer Modelle zu verursachen.