vor 2 Monaten

Set-Block-Decodierung ist ein Beschleuniger für die Inferenz sprachbasierter Modelle

Itai Gat Heli Ben-Hamu Marton Havasi Daniel Haziza Jeremy Reizenstein Gabriel Synnaeve David Lopez-Paz Brian Karrer Yaron Lipman

Abstract

Autoregressive Next-Token-Prediktions-Sprachmodelle verfügen über leistungsstarke Fähigkeiten, stoßen jedoch bei der praktischen Anwendung auf erhebliche Herausforderungen, bedingt durch die hohen Rechen- und Speicherkosten der Inferenz, insbesondere während der Dekodierungsphase. Wir stellen Set Block Decoding (SBD) vor, ein einfaches und flexibles Paradigma, das die Generierung beschleunigt, indem es die herkömmliche Next-Token-Prediction (NTP) und die maskierte Token-Prediction (MATP) in einer einzigen Architektur integriert. SBD ermöglicht es dem Modell, mehrere, nicht notwendigerweise aufeinanderfolgende zukünftige Tokens parallel zu generieren – eine entscheidende Unterscheidung gegenüber bisherigen Beschleunigungsmethoden. Diese Flexibilität erlaubt die Nutzung fortschrittlicher Löser aus der Literatur diskreter Diffusion, was erhebliche Geschwindigkeitssteigerungen ermöglicht, ohne die Genauigkeit zu beeinträchtigen. SBD erfordert weder Änderungen der Architektur noch zusätzliche Trainingshyperparameter, bleibt mit exakter KV-Caching-Kompatibilität vereinbar und kann durch Feinabstimmung bestehender Next-Token-Prediction-Modelle implementiert werden. Durch die Feinabstimmung von Llama-3.1 8B und Qwen-3 8B zeigen wir, dass SBD eine Reduktion der Anzahl erforderlicher Vorwärtsdurchläufe um den Faktor 3 bis 5 ermöglicht, während die Leistung mit derjenigen vergleichbarer NTP-Trainingsverfahren übereinstimmt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Set-Block-Decodierung ist ein Beschleuniger für die Inferenz sprachbasierter Modelle

Itai Gat Heli Ben-Hamu Marton Havasi Daniel Haziza Jeremy Reizenstein Gabriel Synnaeve David Lopez-Paz Brian Karrer Yaron Lipman

Abstract

KI mit KI entwickeln

Hyper Newsletters