TACO : ensemble de données sur les sujets de génération de code algorithmique

Nous présentons TACO, un jeu de données open-source à grande échelle dédié à la génération de code, conçu avec une attention particulière portée à la logique des algorithmes. TACO vise à offrir un ensemble d'apprentissage plus exigeant ainsi qu'une référence d'évaluation pour les modèles de génération de code. Ce jeu de données inclut des problèmes de programmation de niveau compétition, plus complexes, permettant d'améliorer ou d'évaluer les capacités de compréhension des problèmes et de raisonnement dans des scénarios de programmation réels. Il contient 25 433 problèmes dans l'ensemble d'entraînement et 1 000 dans l'ensemble de test, accompagnés d'un maximum de 1,55 million de solutions diverses. En outre, chaque problème TACO est enrichi de plusieurs étiquettes fines, telles que les sujets de tâche, les algorithmes utilisés, les compétences en programmation et les niveaux de difficulté, offrant ainsi une référence plus précise pour l'entraînement et l'évaluation des modèles de génération de code. Le jeu de données et les scripts d'évaluation sont disponibles sur Hugging Face Hub (https://huggingface.co/datasets/BAAI/TACO) et sur GitHub (https://github.com/FlagOpen/TACO).