ThreadWeaver : threadage adaptatif pour un raisonnement parallèle efficace dans les modèles de langage
ThreadWeaver : threadage adaptatif pour un raisonnement parallèle efficace dans les modèles de langage
Long Lian Sida Wang Felix Juefei-Xu Tsu-Jui Fu Xiuyu Li Adam Yala Trevor Darrell Alane Suhr Yuandong Tian Xi Victoria Lin

Résumé
L’augmentation de la complexité du calcul au moment de l’inférence a permis aux grands modèles linguistiques (LLM) d’atteindre des performances de raisonnement solides, mais le décodage intrinsèquement séquentiel engendre une latence importante, particulièrement sur des tâches complexes. Les travaux récents sur le raisonnement parallèle adaptatif visent à améliorer l’efficacité d’inférence en décomposant le processus de résolution de problèmes en fils de raisonnement concurrents lorsque cela s’avère avantageux. Toutefois, les méthodes existantes, appliquées à des tâches réalistes, sont soit limitées à une approche de cloning supervisé, soit présentent une chute significative de précision par rapport aux modèles séquentiels de chaîne de raisonnement (CoT) largement utilisés. En outre, de nombreuses approches nécessitent des moteurs d’inférence personnalisés, ce qui complique leur déploiement. Nous introduisons ThreadWeaver, un cadre pour le raisonnement parallèle adaptatif, qui atteint une précision équivalente à celle des modèles séquentiels populaires de taille comparable, tout en réduisant de manière significative la latence d’inférence. La performance de ThreadWeaver repose sur trois innovations clés : 1) un générateur de trajectoires parallèles en deux étapes, capable de produire de grandes quantités de données de CoT de haute qualité, annotées de manière parallèle, pour le fine-tuning supervisé ; 2) une co-conception entraînement-inférence basée sur un arbre trie, qui permet le raisonnement parallèle sur n’importe quel moteur d’inférence autoregressif standard, sans modifier les embeddings de position ni les caches KV ; 3) un cadre de renforcement apprenant à la fois la précision et l’efficacité du parallélisme, permettant au modèle d’optimiser le compromis entre ces deux objectifs. Sur six benchmarks exigeants de raisonnement mathématique, ThreadWeaver, entraîné sur Qwen3-8B, atteint une précision comparable aux meilleurs modèles séquentiels (71,9 % en moyenne, 79,9 % sur AIME24), tout en offrant une accélération moyenne de jusqu’à 1,53x en latence par token, établissant ainsi un nouveau frontière de Pareto entre précision et efficacité.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.