HyperAIHyperAI
il y a 2 jours

Une revue sur les benchmarks des grands modèles linguistiques

Shiwen Ni, Guhong Chen, Shuaimin Li, Xuanang Chen, Siyi Li, Bingli Wang, Qiyao Wang, Xingjian Wang, Yifan Zhang, Liyang Fan, Chengming Li, Ruifeng Xu, Le Sun, Min Yang
Une revue sur les benchmarks des grands modèles linguistiques
Résumé

Ces dernières années, avec le développement rapide des capacités des grands modèles linguistiques, tant en profondeur qu’en étendue, un nombre croissant de benchmarks d’évaluation correspondants ont vu le jour. En tant qu’outil d’évaluation quantitative des performances des modèles, les benchmarks ne constituent pas seulement un moyen central pour mesurer les capacités des modèles, mais représentent également un élément clé dans la direction du développement des modèles et la promotion de l’innovation technologique. Pour la première fois, nous présentons une revue systématique de l’état actuel et de l’évolution des benchmarks dédiés aux grands modèles linguistiques, en classant 283 benchmarks représentatifs en trois catégories : capacités générales, spécifiques à un domaine, et spécifiques à un objectif. Les benchmarks à capacités générales couvrent des aspects tels que la linguistique fondamentale, les connaissances et le raisonnement ; les benchmarks spécifiques à un domaine se concentrent sur des domaines comme les sciences naturelles, les sciences humaines et sociales, ainsi que les technologies de l’ingénierie ; quant aux benchmarks spécifiques à un objectif, ils portent sur des enjeux tels que les risques, la fiabilité, les agents, etc. Nous soulignons que les benchmarks actuels souffrent de problèmes tels que des scores artificiellement gonflés dus à la contamination des données, des évaluations biaisées en raison de biais culturels et linguistiques, ainsi qu’un manque d’évaluation de la crédibilité du processus et des environnements dynamiques, et proposons un paradigme de conception pertinent pour stimuler l’innovation future des benchmarks.