13일 전

TACO: 알고리즘 코드 생성 분야의 주제를 담은 데이터셋

Rongao Li, Jie Fu, Bo-Wen Zhang, Tao Huang, Zhihong Sun, Chen Lyu, Guang Liu, Zhi Jin, Ge Li
TACO: 알고리즘 코드 생성 분야의 주제를 담은 데이터셋
초록

우리는 알고리즘의 광학적 특성( optics of algorithms )에 초점을 맞춘 오픈소스 대규모 코드 생성 데이터셋인 TACO를 소개합니다. 이 데이터셋은 코드 생성 모델 분야에서 보다 도전적인 학습 데이터셋과 평가 기준을 제공하기 위해 설계되었습니다. TACO는 실세계 프로그래밍 상황에서 문제 이해 및 추론 능력을 향상시키거나 평가할 수 있도록 경진대회 수준의 어려운 프로그래밍 문제를 포함하고 있습니다. 훈련 세트에는 25,433개, 테스트 세트에는 1,000개의 코딩 문제가 포함되어 있으며, 최대 155만 개에 이르는 다양한 해답이 제공됩니다. 또한 각 TACO 문제는 작업 주제, 알고리즘, 프로그래밍 기술, 난이도 수준 등 세밀한 레이블을 포함하고 있어, 코드 생성 모델의 훈련 및 평가에 더 정밀한 기준을 제공합니다. 데이터셋 및 평가 스크립트는 허깅페이스 허브(https://huggingface.co/datasets/BAAI/TACO)와 깃허브(https://github.com/FlagOpen/TACO)에서 공개되어 있습니다.

TACO: 알고리즘 코드 생성 분야의 주제를 담은 데이터셋 | 최신 연구 논문 | HyperAI초신경