HyperAI

Zusammenfassung

Die Skalierung der Berechnung während der Inferenz hat Large Language Models (LLMs) ermöglicht, starke Reasoning-Leistungen zu erzielen. Allerdings führt die inhärent sequenzielle Dekodierung zu erheblicher Latenz, insbesondere bei komplexen Aufgaben. Kürzlich vorgestellte Ansätze zur adaptiven parallelen Reasoning zielen darauf ab, die Inferenz-Effizienz zu verbessern, indem der Problemlösungsprozess bei Nutzen in parallele Reasoning-Threads zerlegt wird. Allerdings sind bestehende Methoden auf realistischen Aufgaben entweder auf überwachtes Behavior Cloning beschränkt oder zeigen im Vergleich zu weit verbreiteten sequenziellen Long Chain-of-Thought (CoT)-Baselines eine signifikante Genauigkeitsabnahme. Zudem erfordern viele dieser Ansätze maßgeschneiderte Inferenz-Engines, was die Bereitstellung kompliziert. Wir stellen ThreadWeaver vor, einen Rahmen für adaptive parallele Reasoning, der eine Genauigkeit erreicht, die mit populären sequenziellen Reasoning-Modellen vergleichbarer Größe konkurrieren kann, während gleichzeitig die Inferenz-Latenz erheblich reduziert wird. ThreadWeavers Leistung beruht auf drei zentralen Innovationen: 1) einem zweistufigen parallelen Trajektorie-Generator, der großskalige, hochwertige CoT-Daten mit parallelen Annotationen für überwachtes Fine-Tuning erzeugt; 2) einer trie-basierten Training-Inferenz-Co-Design-Strategie, die paralleles Reasoning auf beliebigen Standard-autoregressiven Inferenz-Engines ermöglicht, ohne dass Positionsembeddings oder KV-Caches modifiziert werden müssen; und 3) einem parallelisierungs-awareen Reinforcement-Learning-Framework, das das Modell lehrt, eine Balance zwischen Genauigkeit und effektiver Parallelisierung zu finden. Auf sechs anspruchsvollen mathematischen Reasoning-Benchmarks erreicht ThreadWeaver, auf Qwen3-8B aufgebaut, eine Genauigkeit, die mit führenden sequenziellen Reasoning-Modellen vergleichbar ist (durchschnittlich 71,9 % und 79,9 % auf AIME24), während gleichzeitig eine durchschnittliche Beschleunigung um bis zu 1,53x in der Token-Latenz erzielt wird. Damit etabliert ThreadWeaver eine neue Pareto-Frontier zwischen Genauigkeit und Effizienz.

Zusammenfassung

Long Lian Sida Wang Felix Juefei-Xu Tsu-Jui Fu Xiuyu Li Adam Yala Trevor Darrell Alane Suhr Yuandong Tian Xi Victoria Lin

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Long Lian Sida Wang Felix Juefei-Xu Tsu-Jui Fu Xiuyu Li Adam Yala Trevor Darrell Alane Suhr Yuandong Tian Xi Victoria Lin

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Long Lian Sida Wang Felix Juefei-Xu Tsu-Jui Fu Xiuyu Li Adam Yala Trevor Darrell Alane Suhr Yuandong Tian Xi Victoria Lin

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

Long Lian Sida Wang Felix Juefei-Xu Tsu-Jui Fu Xiuyu Li Adam Yala Trevor Darrell Alane Suhr Yuandong Tian Xi Victoria Lin

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

Long Lian Sida Wang Felix Juefei-Xu Tsu-Jui Fu Xiuyu Li Adam Yala Trevor Darrell Alane Suhr Yuandong Tian Xi Victoria Lin

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

Long Lian Sida Wang Felix Juefei-Xu Tsu-Jui Fu Xiuyu Li Adam Yala Trevor Darrell Alane Suhr Yuandong Tian Xi Victoria Lin

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters