HyperAIHyperAI

Command Palette

Search for a command to run...

Raisonnement variationnel pour les modèles de langage

Xiangxin Zhou Zichen Liu Haonan Wang Chao Du Min Lin Chongxuan Li Liang Wang Tianyu Pang

Résumé

Nous introduisons un cadre variationnel pour le raisonnement des modèles linguistiques, dans lequel les traces de pensée sont traitées comme des variables latentes et optimisées par inférence variationnelle. À partir de la borne inférieure de la vraisemblance (ELBO), nous l’étendons à une fonction objectif multi-trace afin d’obtenir des bornes plus serrées, et proposons une formulation basée sur la divergence de KL en avant (forward-KL) qui stabilise l’entraînement de la postérieure variationnelle. Nous montrons également que l’ajustage par échantillonnage rejeté (rejection sampling fine-tuning) et la récompense binaire en apprentissage par renforcement (RL), y compris GRPO, peuvent être interprétés comme des objectifs locaux de type forward-KL, où un poids implicite fondé sur la précision du modèle émerge naturellement de la dérivation, révélant ainsi un biais auparavant ignoré en faveur des questions plus faciles. Nous validons empiriquement notre méthode sur les familles de modèles Qwen 2.5 et Qwen 3, sur une large gamme de tâches de raisonnement. Globalement, notre travail fournit une perspective probabiliste rigoureuse qui unifie l’inférence variationnelle et les méthodes inspirées de l’apprentissage par renforcement, tout en produisant des objectifs stables pour améliorer la capacité de raisonnement des modèles linguistiques. Notre code est disponible à l’adresse suivante : https://github.com/sail-sg/variational-reasoning.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp