LiveCodeBench Pro : Comment les médaillés olympiques évaluent-ils les LLMs en programmation compétitive ?

Des rapports récents affirment que les grands modèles de langage (LLMs) surpassent désormais les programmeurs élites dans la programmation compétitive. En nous appuyant sur les connaissances d'un groupe de médaillés de concours internationaux d'algorithmes, nous remettons en question cette affirmation, en examinant les différences entre les LLMs et les experts humains, ainsi que les domaines où subsistent encore des limites. Nous présentons LiveCodeBench Pro, un benchmark composé de problèmes provenant de Codeforces, ICPC et IOI, qui est mis à jour continuellement pour réduire le risque de contamination des données. Une équipe de médaillés olympiques annotate chaque problème selon les catégories algorithmiques et effectue une analyse ligne par ligne des soumissions générées par le modèle qui ont échoué. Grâce à ces nouvelles données et ce benchmark, nous constatons que les modèles frontières présentent encore des limitations importantes : sans outils externes, le meilleur modèle ne réussit qu'à 53 % sur les problèmes de difficulté moyenne et à 0 % sur les problèmes difficiles, domaines où les experts humains excellect toujours. Nous observons également que les LLMs réussissent bien sur des problèmes axés sur l'implémentation mais peinent avec des raisonnements algorithmiques nuancés et des analyses complexes de cas, produisant souvent des justifications incorrectes avec assurance. Les performances élevées semblent être principalement dues à la précision de l'implémentation et à l'augmentation par des outils, plutôt qu'à un raisonnement supérieur. LiveCodeBench Pro met donc en lumière l'écart significatif entre le niveau des LLMs et celui des grands maîtres humains, tout en offrant des diagnostics détaillés pour orienter les améliorations futures du raisonnement centré sur le code dans les LLMs.