HyperAI超神经

Google DeepMind und das Korea Advanced Institute of Science and Technology (KAIST) haben kürzlich eine neue Sprachmodellarchitektur namens "Mixture-of-Recursions" (MoR) vorgestellt. Die Forscher behaupten, dass MoR die Inferenzgeschwindigkeit verdoppeln, den Trainingsaufwand reduzieren und die Nutzung des KV-Cache-Speichers um etwa 50 % minimieren kann, ohne die Modellleistung zu beeinträchtigen. Seit ihrer Einführung im Jahr 2017 haben Transformer-Architekturen als Grundlage für große Sprachmodelle fungiert. Fast alle fortschrittlichen Modelle basieren auf diesem Framework. Allerdings steigt der Bedarf an Rechen- und Speicherressourcen mit der wachsenden Größe der Modelle, was die Trainings- und Bereitstellungskosten enorm erhöht. Effizienzoptimierungen in der Vergangenheit konzentrierten sich oft auf ein einzelnes Ziel, wie z.B. die Reduzierung der Modellgröße durch Parameter-Sharing oder die adaptive Verteilung von Rechenkapazitäten. MoR hingegen kombiniert rekursive Berechnungen und dynamisches Routing, um mehrere Effizienzziele gleichzeitig zu erreichen. In einem standardmäßigen Transformer-Modell werden alle Tokens der Eingabetexts durch die gleiche Anzahl von Berechnungsschichten verarbeitet. MoR ändert diesen Ansatz und ermöglicht es verschiedenen Tokens, je nach Komplexität unterschiedlich tief verarbeitet zu werden. Dazu verwendet MoR geteilte Parameterblöcke, um die Parameter-Effizienz zu verbessern, und ein leichtgewichtiges "Router"-System, das entscheidet, wie viele rekursive Berechnungen jeder Token durchläuft. Das Team testete verschiedene Routing-Strategien, darunter "Expert-Choice" und "Token-Choice", um die Lastverteilung und logische Informationsprobleme zu balancieren. Bei der Parametersharing-Strategie zeigten die Tests, dass die "Middle-Cycle"-Strategie am besten funktioniert. Diese Strategie behält unabhängige Parameter für die erste und letzte Schicht des Modells, während sie die Gewichte in den mittleren Schichten teilt. Dies führt zu einer guten Balance zwischen Parametereffizienz und der Ausdrucksfähigkeit des Modells. Die Speichermanagement-Funktion ist eine weitere wesentliche Verbesserung des MoR. Obwohl Parameter geteilt werden, produzieren traditionelle rekursive Modelle bei jedem Rekursionsschritt unabhängige KV-Cache-Daten, was zu einem hohen Speicherverbrauch führt. MoR führt zwei neue KV-Cache-Strategien ein: "Rekursives Caching" speichert nur KV-Daten für Tokens, die zu bestimmten Rekursionsschritten routiert werden, und begrenzt die Aufmerksamkeitsberechnungen auf diese lokalen Daten. Die "Rekursiv-Shared"-Strategie geht noch einen Schritt weiter und nutzt die Tatsache, dass alle Tokens den ersten Rekursionsblock durchlaufen. Hier werden nur in der ersten Schicht KV-Daten gespeichert und für alle nachfolgenden Rekursionsschritte wiederverwendet, was den Speicherverbrauch maximal reduziert. Das Team testete MoR in Modellen mit 135 Millionen bis 1,7 Milliarden Parametern. Die Ergebnisse zeigen, dass ein Modell mit MoR-Architektur, obwohl es fast die Hälfte weniger Parameter als das Referenz-Transformer-Modell hat, in mehreren Few-Shot-Lernaufgaben eine durchschnittliche Genauigkeit von 43,1 % erreicht, die das Benchmark-Modell mit 42,3 % übertrifft. MoRs höhere Recheneffizienz ermöglicht es, mehr Trainingsdaten mit demselben Budget zu verarbeiten, was die Endleistung des Modells erhöht. In Experimenten mit fester Trainingsdatenmenge übertreffen die Leistungen eines MoR-Modells das Referenzmodell, auch wenn es 25 % weniger Trainingsrechenleistung benötigt. Zudem verringert MoR die Trainingszeit um 19 % und den Spitzen-Speicherverbrauch um 25 %. Beim Inferenz-Verhalten zeigt MoR eine besonders starke Verbesserung. Es verwendet eine Continuous-Depth-Batch-Technik, die Tokens in unterschiedlichen Berechnungsphasen zusammenfasst und sie als einen Batch verarbeitet, da sie die gleichen Parameterblöcke nutzen. Diese Technik, kombiniert mit einem Early-Exit-Mechanismus, steigert die Durchsatzleistung erheblich. Bei einem Modell mit 360 Millionen Parametern erreicht MoR-4 in spezifischen Szenarien eine Inferenzbeschleunigung von bis zu 2,06-fach. Interessanterweise weist MoR eine Verhaltensmuster auf, das mit der semantischen Bedeutung der Tokens korreliert. Content-reiche Tokens, wie z.B. "People" oder "defensively confident", erhalten mehr Rekursionszyklen (bis zu drei), während funktionalere Wörter wie "and" weniger Rekursionszyklen benötigen. Dies deutet darauf hin, dass das Modell lernt, mehr Ressourcen für die Verarbeitung wichtiger Informationen einzusetzen. Die Entwicklung von MoR baut auf früheren Arbeiten von Google DeepMind auf, insbesondere auf Techniken wie Mixture-of-Depths (MoD), die sich bereits mit der dynamischen Verteilung von Rechenressourcen befassten. Rekursive Transformers, eine Methode zur Parameter-Sharing, bildeten ebenfalls die theoretische Grundlage für MoR. MoR setzt diese Forschung fort und strebt an, die Effizienz in mehreren Dimensionen – Parameter, Rechenleistung und Speicher – zu optimieren. Dies hat beträchtliche praktische Bedeutung, um die Bereitstellungs- und Nutzungs kosten großer Sprachmodelle zu senken. Zwar ist es zu früh, um MoR als vollständigen Ersatz für Transformern zu betrachten, aber es bietet ein vielversprechendes Entwicklungsziel für die Zukunft. Die Architektur könnte einen wichtigen Beitrag dazu leisten, die Leistung und Effizienz von Sprachmodellen gleichzeitig zu verbessern. Branchenkenner bewerten die Arbeit als bedeutenden Schritt in Richtung effizienterer Sprachmodelle. Sie sehen in MoR das Potenzial, die Grenzen aktueller Technologien zu erweitern und die Kosten für die Entwicklung und Bereitstellung komplexer AI-Modelle zu reduzieren. Google DeepMind hat sich in den letzten Jahren durch kontinuierliche Innovationen im Bereich KI auszeichnet, und MoR ist ein weiteres Beispiel für ihre Pionierarbeit.

Neues Modell von Google und KAIST: MoR verdoppelt Geschwindigkeit, halbiert Speicherbedarf

Related Links