HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

AetherCode : Évaluation de la capacité des MLN à remporter des compétitions de programmation de premier plan

Zihan Wang Jiaze Chen Zhicheng Liu Markus Mak Yidi Du Geonsik Moon et al

AetherCode : Évaluation de la capacité des MLN à remporter des compétitions de programmation de premier plan

Résumé

La programmation compétitive s'est imposée comme une référence essentielle pour évaluer les capacités de raisonnement et de codage des grands modèles linguistiques (LLM). Malgré les progrès remarquables obtenus sur les benchmarks existants, nous soutenons que les évaluations actuelles surestiment excessivement la maîtrise des modèles, masquant ainsi un écart important entre les LLM et les programmeurs d'élite humains. Cet écart découle de deux limites fondamentales : une difficulté et une portée insuffisantes des problèmes proposés dans les benchmarks, ainsi qu'un biais d'évaluation dû à la qualité médiocre des cas de test. Pour pallier ces lacunes, nous présentons AetherCode, un nouveau benchmark tirant ses problèmes des compétitions de programmation de premier plan telles que l’IOI (Olympiade Internationale d’Informatique) et l’ICPC (International Collegiate Programming Contest), offrant ainsi une couverture plus large et un niveau de difficulté plus élevé. AetherCode intègre également des jeux de tests complets et validés par des experts, construits grâce à une approche hybride combinant génération automatisée et curation humaine, garantissant ainsi une évaluation rigoureuse et fiable. En combinant une conception de problèmes exigeante avec une évaluation robuste, AetherCode fournit une mesure plus fidèle des capacités des LLM et établit une nouvelle norme pour les recherches futures en raisonnement sur le code.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
AetherCode : Évaluation de la capacité des MLN à remporter des compétitions de programmation de premier plan | Articles de recherche | HyperAI