Command Palette
Search for a command to run...
Étude théorique sur le pont entre la probabilité interne et la cohérence auto-consistante pour le raisonnement des modèles de langage à grande échelle
Zhi Zhou Yuhao Tan Zenan Li Yuan Yao Lan-Zhe Guo Yu-Feng Li Xiaoxing Ma

Résumé
L’augmentation au moment du test (test-time scaling) vise à améliorer les performances de raisonnement des grands modèles linguistiques (LLM) en augmentant les ressources computationnelles. Une approche courante dans ce domaine consiste en des méthodes d’augmentation basées sur l’échantillonnage, qui améliorent le raisonnement en générant plusieurs chemins de raisonnement pour une même entrée durant l’inférence. Toutefois, malgré ses succès pratiques, les fondements théoriques de cette approche restent largement sous-explorés. Dans cet article, nous proposons le premier cadre théorique pour analyser les méthodes d’augmentation au moment du test basées sur l’échantillonnage, fondé sur la perspective de l’estimation de la confiance. À partir de ce cadre, nous analysons deux paradigmes dominants : la self-consistency et la perplexité, et mettons en évidence des limites clés : la self-consistency souffre d’un fort erreur d’estimation, tandis que la perplexité présente une erreur de modélisation importante, ainsi qu’un risque de dégradation de la convergence de l’erreur d’estimation. Pour remédier à ces limites, nous introduisons RPC, une méthode hybride qui exploite nos insights théoriques à travers deux composants clés : la Perplexity Consistency et le Reasoning Pruning. La Perplexity Consistency combine les avantages de la self-consistency et de la perplexité, accélérant la vitesse de convergence de l’erreur d’estimation de linéaire à exponentielle, tout en préservant l’erreur du modèle. Le Reasoning Pruning empêche la dégradation en éliminant les chemins de raisonnement à faible probabilité. L’analyse théorique ainsi que les résultats expérimentaux sur sept jeux de données de référence démontrent que RPC présente un fort potentiel pour réduire l’erreur de raisonnement. Notamment, RPC atteint des performances de raisonnement comparables à celles de la self-consistency, tout en améliorant à la fois la fiabilité de la confiance et en réduisant de 50 % les coûts d’échantillonnage. Le code et les ressources sont disponibles à l’adresse suivante : https://wnjxyk.github.io/RPC.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.