HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Set-Block-Decodierung ist ein Beschleuniger für die Inferenz sprachbasierter Modelle

Itai Gat Heli Ben-Hamu Marton Havasi Daniel Haziza Jeremy Reizenstein Gabriel Synnaeve David Lopez-Paz Brian Karrer Yaron Lipman

Set-Block-Decodierung ist ein Beschleuniger für die Inferenz sprachbasierter Modelle

Abstract

Autoregressive Next-Token-Prediktions-Sprachmodelle verfügen über leistungsstarke Fähigkeiten, stoßen jedoch bei der praktischen Anwendung auf erhebliche Herausforderungen, bedingt durch die hohen Rechen- und Speicherkosten der Inferenz, insbesondere während der Dekodierungsphase. Wir stellen Set Block Decoding (SBD) vor, ein einfaches und flexibles Paradigma, das die Generierung beschleunigt, indem es die herkömmliche Next-Token-Prediction (NTP) und die maskierte Token-Prediction (MATP) in einer einzigen Architektur integriert. SBD ermöglicht es dem Modell, mehrere, nicht notwendigerweise aufeinanderfolgende zukünftige Tokens parallel zu generieren – eine entscheidende Unterscheidung gegenüber bisherigen Beschleunigungsmethoden. Diese Flexibilität erlaubt die Nutzung fortschrittlicher Löser aus der Literatur diskreter Diffusion, was erhebliche Geschwindigkeitssteigerungen ermöglicht, ohne die Genauigkeit zu beeinträchtigen. SBD erfordert weder Änderungen der Architektur noch zusätzliche Trainingshyperparameter, bleibt mit exakter KV-Caching-Kompatibilität vereinbar und kann durch Feinabstimmung bestehender Next-Token-Prediction-Modelle implementiert werden. Durch die Feinabstimmung von Llama-3.1 8B und Qwen-3 8B zeigen wir, dass SBD eine Reduktion der Anzahl erforderlicher Vorwärtsdurchläufe um den Faktor 3 bis 5 ermöglicht, während die Leistung mit derjenigen vergleichbarer NTP-Trainingsverfahren übereinstimmt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Set-Block-Decodierung ist ein Beschleuniger für die Inferenz sprachbasierter Modelle | Forschungsarbeiten | HyperAI