TACO: Themen der algorithmischen COde-Generierung-Datenmenge

Wir stellen TACO vor, einen Open-Source-Datensatz für große Skalen zur Codegenerierung, der sich auf die Optik von Algorithmen konzentriert und dazu dienen soll, im Bereich der Codegenerierungsmodelle eine anspruchsvollere Trainingsdatenbasis und Evaluationsbenchmarks bereitzustellen. TACO umfasst Programmieraufgaben auf Wettbewerbsniveau, die anspruchsvoller sind und dazu beitragen, das Problembewusstsein und die Schlussfolgerungsfähigkeiten in realen Programmier-Szenarien zu verbessern oder zu bewerten. Der Datensatz enthält 25.433 Aufgaben im Trainingsset und 1.000 Aufgaben im Testset sowie bis zu 1,55 Millionen vielfältige Lösungsantworten. Zudem sind jeder TACO-Aufgabe mehrere feinkörnige Metadaten zugeordnet, wie Aufgabenthemen, Algorithmen, Programmierfähigkeiten und Schwierigkeitsgrade, was eine präzisere Grundlage für das Training und die Evaluation von Codegenerierungsmodellen bietet. Der Datensatz und die Evaluierungsskripte sind auf Hugging Face Hub (https://huggingface.co/datasets/BAAI/TACO) und GitHub (https://github.com/FlagOpen/TACO) verfügbar.