SPEED-Bench: Neues Benchmark für spekulatives Dekodieren
Die Forschung zur beschleunigten Inferenz von Large Language Models (LLMs) hat sich auf das Spekulative Decoding (SD) konzentriert. Diese Technik nutzt ein leichtgewichtiges Entwurfsmodell, um mehrere zukünftige Tokens vorherzusagen, die dann parallel vom Zielmodell verifiziert werden. Obwohl SD die Durchsatzleistung erheblich steigert, bleibt die Bewertung dieser Algorithmen oft fragmentiert und spiegelt nicht die Realität von Produktionssystemen wider. Bestehende Benchmarks basieren häufig auf kleinen Datensätzen mit geringer semantischer Vielfalt, kurzen Eingabelängen und einem einzigen Anfragekontext, was zu unzuverlässigen Ergebnissen führt. Um diese Lücken zu schließen, wurde SPEED-Bench vorgestellt: ein einheitlicher und diverser Benchmark, der speziell für die Bewertung von SD unter realistischen Bedingungen entwickelt wurde. SPEED-Bench basiert auf zwei maßgeschneiderten Datensatzsplitte und einem vereinheitlichten Messframework. Der qualitative Split dient der Bewertung der Spezulationsqualität, also der Genauigkeit des Entwurfsmodells, über verschiedene semantische Domänen hinweg. Dazu wurden Daten aus 18 öffentlichen Quellen in elf Kategorien wie Coding, Mathematik, Schreiben und Mehrsprachigkeit aggregiert. Im Gegensatz zu früheren Benchmarks wird hier nicht einfach eine große Anzahl an Prompts gesammelt, sondern eine kompakte, aber hochdiverse Auswahl getroffen. Durch die Anwendung eines speziellen Auswahlalgorithmus, der die semantische Ähnlichkeit zwischen den Prompts minimiert, wird eine redundante Vielfalt vermieden. Dies ermöglicht eine präzisere Analyse des Akzeptanzverhaltens in Domänen mit niedriger Entropie, wie Programmcode, gegenüber solchen mit hoher Entropie, wie Rollenspiele. Der Durchsatz-Split konzentriert sich hingegen auf die Systemleistung unter realen Betriebsbedingungen. Da die Geschwindigkeit von SD von Batch-Größe, Eingabelänge und Systembeschränkungen abhängt, wurden hier feste Eingabelängenkategorien von 1.000 bis 32.000 Tokens erstellt. Jeder Bereich enthält genügend Prompts, um stabile Durchsatzkurven bei hoher Parallelität zu messen. Ein entscheidender Aspekt dabei ist die Vermeidung von zufälligen Token-Eingaben, die in der Vergangenheit häufig verwendet wurden, um Last zu simulieren. Tests zeigten, dass zufällige Eingaben die Annahmerate künstlich steigern und durch falsche Aktivierung von Expert-Netzwerken den gemessenen Durchsatz um bis zu 23 Prozent überschätzen. Um faire Vergleiche zwischen verschiedenen Inferenz-Engines wie TensorRT-LLM, vLLM und SGLang zu gewährleisten, integriert SPEED-Bench ein einheitliches Messframework. Dieses behandelt Tokenisierung und Prompt-Formatierung extern, sodass alle Engines identische vorverarbeitete Eingaben erhalten. Dies eliminiert Unterschiede, die durch verschiedene Tokenisierungsverfahren entstehen könnten und sonst die Vergleichbarkeit der Algorithmen verfälschen würden. Erste Ergebnisse mit SPEED-Bench bestätigen, dass die Annahmelänge stark von der Domäne abhängt. Während leichten Methoden wie N-Gram-Spezulation bei moderaten Batch-Größen sogar zu Verzögerungen führen können, zeigen nativ trainierte Modelle mit Multi-Token-Vorhersage (MTP) signifikant bessere Ergebnisse als nachträglich trainierte Ansätze wie EAGLE3. Zusätzlich deckt der Benchmark subtile Probleme auf, die bei geringerer Datenvielfalt unsichtbar bleiben. Beispielsweise kann eine aggressive Verkleinerung des Vokabulars in Optimierungen wie denen von EAGLE3 die Performance in langgezogenen Anwendungsfallen, etwa bei Mehrsprachigkeit oder Zusammenfassungen, drastisch verschlechtern, selbst wenn sie in Nischendisziplinen wie Mathematik kaum auffällt. SPEED-Bench stellt damit eine transparente, offene und robuste Grundlage dar, um spekulative Decoding-Verfahren in Forschung und Praxis realistisch zu bewerten und weiterzuentwickeln.
