Command Palette
Search for a command to run...
AetherCode : Évaluation de la capacité des MLN à remporter des compétitions de programmation de premier plan
Zihan Wang Jiaze Chen Zhicheng Liu Markus Mak Yidi Du Geonsik Moon et al

Résumé
La programmation compétitive s'est imposée comme une référence essentielle pour évaluer les capacités de raisonnement et de codage des grands modèles linguistiques (LLM). Malgré les progrès remarquables obtenus sur les benchmarks existants, nous soutenons que les évaluations actuelles surestiment excessivement la maîtrise des modèles, masquant ainsi un écart important entre les LLM et les programmeurs d'élite humains. Cet écart découle de deux limites fondamentales : une difficulté et une portée insuffisantes des problèmes proposés dans les benchmarks, ainsi qu'un biais d'évaluation dû à la qualité médiocre des cas de test. Pour pallier ces lacunes, nous présentons AetherCode, un nouveau benchmark tirant ses problèmes des compétitions de programmation de premier plan telles que l’IOI (Olympiade Internationale d’Informatique) et l’ICPC (International Collegiate Programming Contest), offrant ainsi une couverture plus large et un niveau de difficulté plus élevé. AetherCode intègre également des jeux de tests complets et validés par des experts, construits grâce à une approche hybride combinant génération automatisée et curation humaine, garantissant ainsi une évaluation rigoureuse et fiable. En combinant une conception de problèmes exigeante avec une évaluation robuste, AetherCode fournit une mesure plus fidèle des capacités des LLM et établit une nouvelle norme pour les recherches futures en raisonnement sur le code.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.