ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models
ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models
Long Lian Sida Wang Felix Juefei-Xu Tsu-Jui Fu Xiuyu Li Adam Yala Trevor Darrell Alane Suhr Yuandong Tian Xi Victoria Lin

Abstract
Die Skalierung der Berechnung während der Inferenz hat Large Language Models (LLMs) ermöglicht, starke Reasoning-Leistungen zu erzielen. Allerdings führt die inhärent sequenzielle Dekodierung zu erheblicher Latenz, insbesondere bei komplexen Aufgaben. Kürzlich vorgestellte Ansätze zur adaptiven parallelen Reasoning zielen darauf ab, die Inferenz-Effizienz zu verbessern, indem der Problemlösungsprozess bei Nutzen in parallele Reasoning-Threads zerlegt wird. Allerdings sind bestehende Methoden auf realistischen Aufgaben entweder auf überwachtes Behavior Cloning beschränkt oder zeigen im Vergleich zu weit verbreiteten sequenziellen Long Chain-of-Thought (CoT)-Baselines eine signifikante Genauigkeitsabnahme. Zudem erfordern viele dieser Ansätze maßgeschneiderte Inferenz-Engines, was die Bereitstellung kompliziert. Wir stellen ThreadWeaver vor, einen Rahmen für adaptive parallele Reasoning, der eine Genauigkeit erreicht, die mit populären sequenziellen Reasoning-Modellen vergleichbarer Größe konkurrieren kann, während gleichzeitig die Inferenz-Latenz erheblich reduziert wird. ThreadWeavers Leistung beruht auf drei zentralen Innovationen: 1) einem zweistufigen parallelen Trajektorie-Generator, der großskalige, hochwertige CoT-Daten mit parallelen Annotationen für überwachtes Fine-Tuning erzeugt; 2) einer trie-basierten Training-Inferenz-Co-Design-Strategie, die paralleles Reasoning auf beliebigen Standard-autoregressiven Inferenz-Engines ermöglicht, ohne dass Positionsembeddings oder KV-Caches modifiziert werden müssen; und 3) einem parallelisierungs-awareen Reinforcement-Learning-Framework, das das Modell lehrt, eine Balance zwischen Genauigkeit und effektiver Parallelisierung zu finden. Auf sechs anspruchsvollen mathematischen Reasoning-Benchmarks erreicht ThreadWeaver, auf Qwen3-8B aufgebaut, eine Genauigkeit, die mit führenden sequenziellen Reasoning-Modellen vergleichbar ist (durchschnittlich 71,9 % und 79,9 % auf AIME24), während gleichzeitig eine durchschnittliche Beschleunigung um bis zu 1,53x in der Token-Latenz erzielt wird. Damit etabliert ThreadWeaver eine neue Pareto-Frontier zwischen Genauigkeit und Effizienz.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.