HyperAI

Zusammenfassung

Wir stellen TACO vor, einen Open-Source-Datensatz für große Skalen zur Codegenerierung, der sich auf die Optik von Algorithmen konzentriert und dazu dienen soll, im Bereich der Codegenerierungsmodelle eine anspruchsvollere Trainingsdatenbasis und Evaluationsbenchmarks bereitzustellen. TACO umfasst Programmieraufgaben auf Wettbewerbsniveau, die anspruchsvoller sind und dazu beitragen, das Problembewusstsein und die Schlussfolgerungsfähigkeiten in realen Programmier-Szenarien zu verbessern oder zu bewerten. Der Datensatz enthält 25.433 Aufgaben im Trainingsset und 1.000 Aufgaben im Testset sowie bis zu 1,55 Millionen vielfältige Lösungsantworten. Zudem sind jeder TACO-Aufgabe mehrere feinkörnige Metadaten zugeordnet, wie Aufgabenthemen, Algorithmen, Programmierfähigkeiten und Schwierigkeitsgrade, was eine präzisere Grundlage für das Training und die Evaluation von Codegenerierungsmodellen bietet. Der Datensatz und die Evaluierungsskripte sind auf Hugging Face Hub (https://huggingface.co/datasets/BAAI/TACO) und GitHub (https://github.com/FlagOpen/TACO) verfügbar.

Zusammenfassung

Rongao Li Jie Fu Bo-Wen Zhang Tao Huang Zhihong Sun Chen Lyu Guang Liu Zhi Jin Ge Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Rongao Li Jie Fu Bo-Wen Zhang Tao Huang Zhihong Sun Chen Lyu Guang Liu Zhi Jin Ge Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Rongao Li Jie Fu Bo-Wen Zhang Tao Huang Zhihong Sun Chen Lyu Guang Liu Zhi Jin Ge Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

TACO: Themen der algorithmischen COde-Generierung-Datenmenge

Rongao Li Jie Fu Bo-Wen Zhang Tao Huang Zhihong Sun Chen Lyu Guang Liu Zhi Jin Ge Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

TACO: Themen der algorithmischen COde-Generierung-Datenmenge

Rongao Li Jie Fu Bo-Wen Zhang Tao Huang Zhihong Sun Chen Lyu Guang Liu Zhi Jin Ge Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

TACO: Themen der algorithmischen COde-Generierung-Datenmenge

Rongao Li Jie Fu Bo-Wen Zhang Tao Huang Zhihong Sun Chen Lyu Guang Liu Zhi Jin Ge Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters