il y a 13 jours

PECC : Défis d'extraction de problème et de codage

Patrick Haller, Jonas Golde, Alan Akbik

Résumé

Les avancées récentes des grands modèles linguistiques (LLM) ont mis en évidence leurs capacités exceptionnelles dans diverses tâches, telles que la génération de code, la résolution de problèmes et le raisonnement. Les évaluations existantes examinent ces tâches de manière isolée, mais la capacité des LLM à comprendre des énoncés rédigés sous forme de prose, à identifier les problèmes sous-jacents, puis à générer des solutions codées appropriées reste encore largement inexplorée. Pour combler cette lacune, nous introduisons PECC, un nouveau benchmark dérivé des défis d’Advent Of Code (AoC) et de Project Euler, comprenant 2 396 problèmes. Contrairement aux benchmarks conventionnels, PECC exige que les LLM interprètent des problèmes intégrés dans un récit, extraient les exigences pertinentes et produisent du code exécutable. Une caractéristique clé de notre jeu de données réside dans la complexité ajoutée par l’utilisation de promptings en langage naturel dans les évaluations basées sur les échanges conversationnels, reflétant ainsi les ambiguïtés réelles des instructions dans le monde réel. Les résultats montrent une variation significative des performances des modèles entre les problèmes narratifs et neutres, avec des difficultés particulières dans le sous-ensemble mathématique d’Euler : GPT-3.5-Turbo réussit 50 % des défis AoC, mais seulement 8 % des problèmes Euler. En sondant les limites des capacités des LLM, notre benchmark fournit un cadre permettant de surveiller et d’évaluer l’évolution ultérieure des LLM en tant que solveurs universels de problèmes.