HyperAIHyperAI

Command Palette

Search for a command to run...

vor 9 Tagen

AdaSPEC: Selektive Wissensvermittlung für effiziente spekulative Decoder

Yuezhou Hu Jiaxin Guo Xinyu Feng Tuo Zhao

AdaSPEC: Selektive Wissensvermittlung für effiziente spekulative Decoder

Abstract

Spekulatives Decodieren (Speculative Decoding, SD) beschleunigt die Inferenz großer Sprachmodelle, indem ein kleines Draft-Modell zur Vorhersage verwendet wird, deren Richtigkeit anschließend durch ein größeres Zielmodell überprüft wird. Die Effektivität von SD hängt entscheidend von der Ausrichtung zwischen diesen Modellen ab, die typischerweise durch Knowledge Distillation (KD) verbessert wird. Allerdings zielen herkömmliche KD-Methoden darauf ab, die Kullback-Leibler-Divergenz zwischen Draft- und Zielmodell über alle Tokens zu minimieren – ein Ziel, das mit dem eigentlichen Zweck von SD, nämlich die Maximierung der Token-Akzeptanzrate, nicht konsistent ist. Daher können Draft-Modelle aufgrund von Kapazitätsbeschränkungen oft die Kenntnisse des Zielmodells nicht vollständig übernehmen, was zu suboptimalen Leistungen führt. Um dieses Problem anzugehen, stellen wir AdaSPEC vor, eine neuartige Methode, die selektive Token-Filterung in den KD-Prozess integriert. AdaSPEC nutzt ein Referenzmodell, um schwierig zu übertragende Tokens zu identifizieren und auszuschließen, wodurch eine Distillation eines Draft-Modells ermöglicht wird, das sich besser auf einfache Tokens mit dem Zielmodell ausrichtet. Dieser Ansatz verbessert die Gesamt-Akzeptanzrate der Tokens, ohne die Qualität der Generierung zu beeinträchtigen. Wir evaluieren AdaSPEC anhand verschiedener Aufgaben wie arithmetische Schlussfolgerung, Anweisungsfolge, Programmierung und Zusammenfassung, unter Verwendung von Modellkonfigurationen mit 31 Mio./1,4 Mrd. und 350 Mio./2,7 Mrd. Parametern. Unsere Ergebnisse zeigen, dass AdaSPEC die aktuell beste Methode, DistillSpec, konsistent übertrifft und bei allen Aufgaben höhere Akzeptanzraten erreicht (bis zu 15 %). Der Quellcode ist öffentlich unter https://github.com/yuezhouhu/adaspec verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp