il y a 5 mois

Résumé

La programmation compétitive s'est imposée comme une référence essentielle pour évaluer les capacités de raisonnement et de codage des grands modèles linguistiques (LLM). Malgré les progrès remarquables obtenus sur les benchmarks existants, nous soutenons que les évaluations actuelles surestiment excessivement la maîtrise des modèles, masquant ainsi un écart important entre les LLM et les programmeurs d'élite humains. Cet écart découle de deux limites fondamentales : une difficulté et une portée insuffisantes des problèmes proposés dans les benchmarks, ainsi qu'un biais d'évaluation dû à la qualité médiocre des cas de test. Pour pallier ces lacunes, nous présentons AetherCode, un nouveau benchmark tirant ses problèmes des compétitions de programmation de premier plan telles que l’IOI (Olympiade Internationale d’Informatique) et l’ICPC (International Collegiate Programming Contest), offrant ainsi une couverture plus large et un niveau de difficulté plus élevé. AetherCode intègre également des jeux de tests complets et validés par des experts, construits grâce à une approche hybride combinant génération automatisée et curation humaine, garantissant ainsi une évaluation rigoureuse et fiable. En combinant une conception de problèmes exigeante avec une évaluation robuste, AetherCode fournit une mesure plus fidèle des capacités des LLM et établit une nouvelle norme pour les recherches futures en raisonnement sur le code.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 5 mois

Traitement Du Langage Naturel

Tâche

Zihan Wang Jiaze Chen Zhicheng Liu Markus Mak Yidi Du Geonsik Moon et al

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 5 mois

Traitement Du Langage Naturel

Tâche

Zihan Wang Jiaze Chen Zhicheng Liu Markus Mak Yidi Du Geonsik Moon et al

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

AetherCode : Évaluation de la capacité des MLN à remporter des compétitions de programmation de premier plan

Zihan Wang Jiaze Chen Zhicheng Liu Markus Mak Yidi Du Geonsik Moon et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

AetherCode : Évaluation de la capacité des MLN à remporter des compétitions de programmation de premier plan

Zihan Wang Jiaze Chen Zhicheng Liu Markus Mak Yidi Du Geonsik Moon et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

AetherCode : Évaluation de la capacité des MLN à remporter des compétitions de programmation de premier plan

Zihan Wang Jiaze Chen Zhicheng Liu Markus Mak Yidi Du Geonsik Moon et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters