il y a un mois

Raisonnement variationnel pour les modèles de langage

Voir les détails de l'article Voir le code

Xiangxin Zhou Zichen Liu Haonan Wang Chao Du Min Lin Chongxuan Li Liang Wang Tianyu Pang

Raisonnement variationnel pour les modèles de langage

Résumé

Nous introduisons un cadre variationnel pour le raisonnement des modèles linguistiques, dans lequel les traces de pensée sont traitées comme des variables latentes et optimisées par inférence variationnelle. À partir de la borne inférieure de la vraisemblance (ELBO), nous l’étendons à une fonction objectif multi-trace afin d’obtenir des bornes plus serrées, et proposons une formulation basée sur la divergence de KL en avant (forward-KL) qui stabilise l’entraînement de la postérieure variationnelle. Nous montrons également que l’ajustage par échantillonnage rejeté (rejection sampling fine-tuning) et la récompense binaire en apprentissage par renforcement (RL), y compris GRPO, peuvent être interprétés comme des objectifs locaux de type forward-KL, où un poids implicite fondé sur la précision du modèle émerge naturellement de la dérivation, révélant ainsi un biais auparavant ignoré en faveur des questions plus faciles. Nous validons empiriquement notre méthode sur les familles de modèles Qwen 2.5 et Qwen 3, sur une large gamme de tâches de raisonnement. Globalement, notre travail fournit une perspective probabiliste rigoureuse qui unifie l’inférence variationnelle et les méthodes inspirées de l’apprentissage par renforcement, tout en produisant des objectifs stables pour améliorer la capacité de raisonnement des modèles linguistiques. Notre code est disponible à l’adresse suivante : https://github.com/sail-sg/variational-reasoning.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Raisonnement variationnel pour les modèles de langage

Xiangxin Zhou Zichen Liu Haonan Wang Chao Du Min Lin Chongxuan Li Liang Wang Tianyu Pang

Résumé

Construire l'IA avec l'IA

Hyper Newsletters