HyperAIHyperAI
vor 13 Tagen

TACO: Themen der algorithmischen COde-Generierung-Datenmenge

Rongao Li, Jie Fu, Bo-Wen Zhang, Tao Huang, Zhihong Sun, Chen Lyu, Guang Liu, Zhi Jin, Ge Li
TACO: Themen der algorithmischen COde-Generierung-Datenmenge
Abstract

Wir stellen TACO vor, einen Open-Source-Datensatz für große Skalen zur Codegenerierung, der sich auf die Optik von Algorithmen konzentriert und dazu dienen soll, im Bereich der Codegenerierungsmodelle eine anspruchsvollere Trainingsdatenbasis und Evaluationsbenchmarks bereitzustellen. TACO umfasst Programmieraufgaben auf Wettbewerbsniveau, die anspruchsvoller sind und dazu beitragen, das Problembewusstsein und die Schlussfolgerungsfähigkeiten in realen Programmier-Szenarien zu verbessern oder zu bewerten. Der Datensatz enthält 25.433 Aufgaben im Trainingsset und 1.000 Aufgaben im Testset sowie bis zu 1,55 Millionen vielfältige Lösungsantworten. Zudem sind jeder TACO-Aufgabe mehrere feinkörnige Metadaten zugeordnet, wie Aufgabenthemen, Algorithmen, Programmierfähigkeiten und Schwierigkeitsgrade, was eine präzisere Grundlage für das Training und die Evaluation von Codegenerierungsmodellen bietet. Der Datensatz und die Evaluierungsskripte sind auf Hugging Face Hub (https://huggingface.co/datasets/BAAI/TACO) und GitHub (https://github.com/FlagOpen/TACO) verfügbar.

TACO: Themen der algorithmischen COde-Generierung-Datenmenge | Neueste Forschungsarbeiten | HyperAI