HyperAIHyperAI
il y a un mois

REST : Test de stress des grands modèles de raisonnement en posant plusieurs problèmes à la fois

Zhuoshi Pan, Qizhi Pei, Yu Li, Qiyao Sun, Zinan Tang, H. Vicky Zhao, Conghui He, Lijun Wu
REST : Test de stress des grands modèles de raisonnement en posant plusieurs problèmes à la fois
Résumé

Les modèles de raisonnement à grande échelle (LRM) récents ont réalisé des progrès remarquables sur des benchmarks spécifiques aux tâches, mais leurs méthodes d'évaluation restent limitées par des paradigmes de résolution de problèmes isolés. Les benchmarks existants évaluent principalement le raisonnement à travers une série de questions individuelles, ce qui entraîne plusieurs limitations critiques : (1) la vulnérabilité à la contamination des données et une moindre difficulté (par exemple, DeepSeek-R1 atteint 97,0 % sur MATH500), obligeant à créer constamment de nouvelles questions avec un effort humain important et coûteux ; (2) l'incapacité d'évaluer les modèles sous pression multi-contexte, une exigence clé pour leur déploiement dans le monde réel.Pour combler cette lacune, nous présentons REST (Reasoning Evaluation through Simultaneous Testing), un cadre de tests sous contrainte qui expose simultanément les LRMs à plusieurs problèmes. Outre le raisonnement de base, REST évalue spécifiquement plusieurs capacités sous-évaluées : l'allocation prioritaire du contexte, la résistance à l'interférence entre problèmes et la gestion dynamique du fardeau cognitif. Notre évaluation met en lumière plusieurs résultats frappants : même les modèles d'avant-garde comme DeepSeek-R1 montrent une dégradation importante des performances lors des tests sous contrainte. De manière cruciale, REST démontre une puissance discriminatoire plus forte que les benchmarks existants, révélant des différences marquées de performance entre les modèles qui affichent des performances similaires et quasi optimales lors d'évaluations individuelles.Certaines insights mécaniques importantes émergent de notre analyse : (1) le "piège de la surenchère" est un facteur critique contribuant à la dégradation des performances ; (2) les modèles formés avec la technique "long2short" conservent une meilleure précision de leurs performances individuelles lors des tests REST, surpassant ainsi ceux formés selon les méthodes standards. Ces résultats établissent REST comme un paradigme d'évaluation rentable et préparé à l'avenir, qui reflète mieux les exigences de raisonnement du monde réel tout en réduisant la dépendance aux annotations humaines continues.