Les modèles de langage à grande échelle (LLMs) peuvent-ils générer des cas de test de haute qualité pour les problèmes d'algorithmes ? TestCase-Eval : Une évaluation systématique de la couverture et de l'exposition aux défauts

Nous présentons TestCase-Eval, un nouveau benchmark pour l'évaluation systématique des modèles de langage grand échelle (LLMs) dans la génération de cas de test. TestCase-Eval comprend 500 problèmes d'algorithmes et 100 000 solutions créées par des humains provenant de la plateforme Codeforces. Il se concentre sur deux tâches cruciales : (1) la Couverture des Défauts, qui mesure à quel point les ensembles de tests générés par les LLMs explorent divers scénarios d'entrée et couvrent une large gamme de modes de défaillance potentiels ; (2) l'Exposition des Défauts, qui évalue si les LLMs sont capables de créer un ensemble de tests spécifique révélant une implémentation incorrecte du code. Nous fournissons une évaluation exhaustive de 19 modèles de langage grand échelle d'avant-garde, tant open-source que propriétaires, sur TestCase-Eval, offrant des perspectives sur leurs forces et leurs limites dans la génération de cas de test efficaces pour les problèmes d'algorithmes.