il y a 2 mois

Long Lian Sida Wang Felix Juefei-Xu Tsu-Jui Fu Xiuyu Li Adam Yala Trevor Darrell Alane Suhr Yuandong Tian Xi Victoria Lin

Résumé

L’augmentation de la complexité du calcul au moment de l’inférence a permis aux grands modèles linguistiques (LLM) d’atteindre des performances de raisonnement solides, mais le décodage intrinsèquement séquentiel engendre une latence importante, particulièrement sur des tâches complexes. Les travaux récents sur le raisonnement parallèle adaptatif visent à améliorer l’efficacité d’inférence en décomposant le processus de résolution de problèmes en fils de raisonnement concurrents lorsque cela s’avère avantageux. Toutefois, les méthodes existantes, appliquées à des tâches réalistes, sont soit limitées à une approche de cloning supervisé, soit présentent une chute significative de précision par rapport aux modèles séquentiels de chaîne de raisonnement (CoT) largement utilisés. En outre, de nombreuses approches nécessitent des moteurs d’inférence personnalisés, ce qui complique leur déploiement. Nous introduisons ThreadWeaver, un cadre pour le raisonnement parallèle adaptatif, qui atteint une précision équivalente à celle des modèles séquentiels populaires de taille comparable, tout en réduisant de manière significative la latence d’inférence. La performance de ThreadWeaver repose sur trois innovations clés : 1) un générateur de trajectoires parallèles en deux étapes, capable de produire de grandes quantités de données de CoT de haute qualité, annotées de manière parallèle, pour le fine-tuning supervisé ; 2) une co-conception entraînement-inférence basée sur un arbre trie, qui permet le raisonnement parallèle sur n’importe quel moteur d’inférence autoregressif standard, sans modifier les embeddings de position ni les caches KV ; 3) un cadre de renforcement apprenant à la fois la précision et l’efficacité du parallélisme, permettant au modèle d’optimiser le compromis entre ces deux objectifs. Sur six benchmarks exigeants de raisonnement mathématique, ThreadWeaver, entraîné sur Qwen3-8B, atteint une précision comparable aux meilleurs modèles séquentiels (71,9 % en moyenne, 79,9 % sur AIME24), tout en offrant une accélération moyenne de jusqu’à 1,53x en latence par token, établissant ainsi un nouveau frontière de Pareto entre précision et efficacité.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 2 mois

Long Lian Sida Wang Felix Juefei-Xu Tsu-Jui Fu Xiuyu Li Adam Yala Trevor Darrell Alane Suhr Yuandong Tian Xi Victoria Lin

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 2 mois

Long Lian Sida Wang Felix Juefei-Xu Tsu-Jui Fu Xiuyu Li Adam Yala Trevor Darrell Alane Suhr Yuandong Tian Xi Victoria Lin

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

ThreadWeaver : threadage adaptatif pour un raisonnement parallèle efficace dans les modèles de langage | Articles | HyperAI

Command Palette

ThreadWeaver : threadage adaptatif pour un raisonnement parallèle efficace dans les modèles de langage

Long Lian Sida Wang Felix Juefei-Xu Tsu-Jui Fu Xiuyu Li Adam Yala Trevor Darrell Alane Suhr Yuandong Tian Xi Victoria Lin

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

ThreadWeaver : threadage adaptatif pour un raisonnement parallèle efficace dans les modèles de langage

Long Lian Sida Wang Felix Juefei-Xu Tsu-Jui Fu Xiuyu Li Adam Yala Trevor Darrell Alane Suhr Yuandong Tian Xi Victoria Lin

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

ThreadWeaver : threadage adaptatif pour un raisonnement parallèle efficace dans les modèles de langage

Long Lian Sida Wang Felix Juefei-Xu Tsu-Jui Fu Xiuyu Li Adam Yala Trevor Darrell Alane Suhr Yuandong Tian Xi Victoria Lin

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters