HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 3 Tagen

ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

Long Lian Sida Wang Felix Juefei-Xu Tsu-Jui Fu Xiuyu Li Adam Yala Trevor Darrell Alane Suhr Yuandong Tian Xi Victoria Lin

ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

Abstract

Die Skalierung der Berechnung während der Inferenz hat Large Language Models (LLMs) ermöglicht, starke Reasoning-Leistungen zu erzielen. Allerdings führt die inhärent sequenzielle Dekodierung zu erheblicher Latenz, insbesondere bei komplexen Aufgaben. Kürzlich vorgestellte Ansätze zur adaptiven parallelen Reasoning zielen darauf ab, die Inferenz-Effizienz zu verbessern, indem der Problemlösungsprozess bei Nutzen in parallele Reasoning-Threads zerlegt wird. Allerdings sind bestehende Methoden auf realistischen Aufgaben entweder auf überwachtes Behavior Cloning beschränkt oder zeigen im Vergleich zu weit verbreiteten sequenziellen Long Chain-of-Thought (CoT)-Baselines eine signifikante Genauigkeitsabnahme. Zudem erfordern viele dieser Ansätze maßgeschneiderte Inferenz-Engines, was die Bereitstellung kompliziert. Wir stellen ThreadWeaver vor, einen Rahmen für adaptive parallele Reasoning, der eine Genauigkeit erreicht, die mit populären sequenziellen Reasoning-Modellen vergleichbarer Größe konkurrieren kann, während gleichzeitig die Inferenz-Latenz erheblich reduziert wird. ThreadWeavers Leistung beruht auf drei zentralen Innovationen: 1) einem zweistufigen parallelen Trajektorie-Generator, der großskalige, hochwertige CoT-Daten mit parallelen Annotationen für überwachtes Fine-Tuning erzeugt; 2) einer trie-basierten Training-Inferenz-Co-Design-Strategie, die paralleles Reasoning auf beliebigen Standard-autoregressiven Inferenz-Engines ermöglicht, ohne dass Positionsembeddings oder KV-Caches modifiziert werden müssen; und 3) einem parallelisierungs-awareen Reinforcement-Learning-Framework, das das Modell lehrt, eine Balance zwischen Genauigkeit und effektiver Parallelisierung zu finden. Auf sechs anspruchsvollen mathematischen Reasoning-Benchmarks erreicht ThreadWeaver, auf Qwen3-8B aufgebaut, eine Genauigkeit, die mit führenden sequenziellen Reasoning-Modellen vergleichbar ist (durchschnittlich 71,9 % und 79,9 % auf AIME24), während gleichzeitig eine durchschnittliche Beschleunigung um bis zu 1,53x in der Token-Latenz erzielt wird. Damit etabliert ThreadWeaver eine neue Pareto-Frontier zwischen Genauigkeit und Effizienz.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models | Forschungsarbeiten | HyperAI