Command Palette
Search for a command to run...
Raisonnement variationnel pour les modèles de langage
Xiangxin Zhou Zichen Liu Haonan Wang Chao Du Min Lin Chongxuan Li Liang Wang Tianyu Pang

Résumé
Nous introduisons un cadre variationnel pour le raisonnement des modèles linguistiques, dans lequel les traces de pensée sont traitées comme des variables latentes et optimisées par inférence variationnelle. À partir de la borne inférieure de la vraisemblance (ELBO), nous l’étendons à une fonction objectif multi-trace afin d’obtenir des bornes plus serrées, et proposons une formulation basée sur la divergence de KL en avant (forward-KL) qui stabilise l’entraînement de la postérieure variationnelle. Nous montrons également que l’ajustage par échantillonnage rejeté (rejection sampling fine-tuning) et la récompense binaire en apprentissage par renforcement (RL), y compris GRPO, peuvent être interprétés comme des objectifs locaux de type forward-KL, où un poids implicite fondé sur la précision du modèle émerge naturellement de la dérivation, révélant ainsi un biais auparavant ignoré en faveur des questions plus faciles. Nous validons empiriquement notre méthode sur les familles de modèles Qwen 2.5 et Qwen 3, sur une large gamme de tâches de raisonnement. Globalement, notre travail fournit une perspective probabiliste rigoureuse qui unifie l’inférence variationnelle et les méthodes inspirées de l’apprentissage par renforcement, tout en produisant des objectifs stables pour améliorer la capacité de raisonnement des modèles linguistiques. Notre code est disponible à l’adresse suivante : https://github.com/sail-sg/variational-reasoning.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.