Command Palette
Search for a command to run...
Set-Block-Decodierung ist ein Beschleuniger für die Inferenz sprachbasierter Modelle
Itai Gat Heli Ben-Hamu Marton Havasi Daniel Haziza Jeremy Reizenstein Gabriel Synnaeve David Lopez-Paz Brian Karrer Yaron Lipman

Abstract
Autoregressive Next-Token-Prediktions-Sprachmodelle verfügen über leistungsstarke Fähigkeiten, stoßen jedoch bei der praktischen Anwendung auf erhebliche Herausforderungen, bedingt durch die hohen Rechen- und Speicherkosten der Inferenz, insbesondere während der Dekodierungsphase. Wir stellen Set Block Decoding (SBD) vor, ein einfaches und flexibles Paradigma, das die Generierung beschleunigt, indem es die herkömmliche Next-Token-Prediction (NTP) und die maskierte Token-Prediction (MATP) in einer einzigen Architektur integriert. SBD ermöglicht es dem Modell, mehrere, nicht notwendigerweise aufeinanderfolgende zukünftige Tokens parallel zu generieren – eine entscheidende Unterscheidung gegenüber bisherigen Beschleunigungsmethoden. Diese Flexibilität erlaubt die Nutzung fortschrittlicher Löser aus der Literatur diskreter Diffusion, was erhebliche Geschwindigkeitssteigerungen ermöglicht, ohne die Genauigkeit zu beeinträchtigen. SBD erfordert weder Änderungen der Architektur noch zusätzliche Trainingshyperparameter, bleibt mit exakter KV-Caching-Kompatibilität vereinbar und kann durch Feinabstimmung bestehender Next-Token-Prediction-Modelle implementiert werden. Durch die Feinabstimmung von Llama-3.1 8B und Qwen-3 8B zeigen wir, dass SBD eine Reduktion der Anzahl erforderlicher Vorwärtsdurchläufe um den Faktor 3 bis 5 ermöglicht, während die Leistung mit derjenigen vergleichbarer NTP-Trainingsverfahren übereinstimmt.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.