HyperAIHyperAI

Command Palette

Search for a command to run...

Les modèles de langage à grande échelle (LLMs) peuvent-ils générer des cas de test de haute qualité pour les problèmes d'algorithmes ? TestCase-Eval : Une évaluation systématique de la couverture et de l'exposition aux défauts

Zheyuan Yang Zexi Kuang Xue Xia Yilun Zhao

Résumé

Nous présentons TestCase-Eval, un nouveau benchmark pour l'évaluation systématique des modèles de langage grand échelle (LLMs) dans la génération de cas de test. TestCase-Eval comprend 500 problèmes d'algorithmes et 100 000 solutions créées par des humains provenant de la plateforme Codeforces. Il se concentre sur deux tâches cruciales : (1) la Couverture des Défauts, qui mesure à quel point les ensembles de tests générés par les LLMs explorent divers scénarios d'entrée et couvrent une large gamme de modes de défaillance potentiels ; (2) l'Exposition des Défauts, qui évalue si les LLMs sont capables de créer un ensemble de tests spécifique révélant une implémentation incorrecte du code. Nous fournissons une évaluation exhaustive de 19 modèles de langage grand échelle d'avant-garde, tant open-source que propriétaires, sur TestCase-Eval, offrant des perspectives sur leurs forces et leurs limites dans la génération de cas de test efficaces pour les problèmes d'algorithmes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp