HyperAIHyperAI
il y a un mois

Raisonnement ou Mémorisation ? Résultats Non Fiables de l'Apprentissage par Renforcement En raison de la Contamination des Données

Mingqi Wu, Zhihao Zhang, Qiaole Dong, Zhiheng Xi, Jun Zhao, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Yanwei Fu, Qin Liu, Songyang Zhang, Qi Zhang
Raisonnement ou Mémorisation ? Résultats Non Fiables de l'Apprentissage par Renforcement
En raison de la Contamination des Données
Résumé

Les capacités de raisonnement des grands modèles linguistiques (LLMs) ont longtemps été au centre des recherches. Des travaux récents ont encore amélioré ces capacités en utilisant l'apprentissage par renforcement (RL), avec de nombreuses nouvelles méthodes affirmant des progrès significatifs avec un minimum ou sans supervision externe. Surprenamment, certaines études suggèrent même que des signaux de récompense aléatoires ou incorrects peuvent améliorer les performances de raisonnement. Cependant, ces avancées sont principalement rapportées pour la famille de modèles Qwen2.5 et évaluées sur des benchmarks bien connus tels que MATH-500, AMC et AIME, sans parvenir à obtenir des gains similaires sur d'autres modèles comme Llama, ce qui mérite une enquête plus approfondie. Notre analyse montre que, bien que Qwen2.5 obtienne de solides performances en raisonnement mathématique, son préentraînement sur de vastes corpus web le rend vulnérable aux contaminations de données dans les benchmarks populaires. Par conséquent, les résultats issus de ces benchmarks peuvent être non fiables. Pour remédier à cela, nous introduisons un générateur qui produit des problèmes arithmétiques entièrement synthétiques de longueur et de difficulté arbitraires, générant un ensemble de données propre que nous appelons RandomCalculation. En utilisant ces ensembles de données exempts de fuites, nous démontrons que seuls les signaux de récompense précis améliorent constamment les performances, tandis que les signaux bruyants ou incorrects n'ont pas cet effet. Nous prônons l'évaluation des méthodes d'apprentissage par renforcement sur des benchmarks non contaminés et à travers diverses familles de modèles pour garantir des conclusions dignes de confiance.