13일 전
TACO: 알고리즘 코드 생성 분야의 주제를 담은 데이터셋
Rongao Li, Jie Fu, Bo-Wen Zhang, Tao Huang, Zhihong Sun, Chen Lyu, Guang Liu, Zhi Jin, Ge Li

초록
우리는 알고리즘의 광학적 특성( optics of algorithms )에 초점을 맞춘 오픈소스 대규모 코드 생성 데이터셋인 TACO를 소개합니다. 이 데이터셋은 코드 생성 모델 분야에서 보다 도전적인 학습 데이터셋과 평가 기준을 제공하기 위해 설계되었습니다. TACO는 실세계 프로그래밍 상황에서 문제 이해 및 추론 능력을 향상시키거나 평가할 수 있도록 경진대회 수준의 어려운 프로그래밍 문제를 포함하고 있습니다. 훈련 세트에는 25,433개, 테스트 세트에는 1,000개의 코딩 문제가 포함되어 있으며, 최대 155만 개에 이르는 다양한 해답이 제공됩니다. 또한 각 TACO 문제는 작업 주제, 알고리즘, 프로그래밍 기술, 난이도 수준 등 세밀한 레이블을 포함하고 있어, 코드 생성 모델의 훈련 및 평가에 더 정밀한 기준을 제공합니다. 데이터셋 및 평가 스크립트는 허깅페이스 허브(https://huggingface.co/datasets/BAAI/TACO)와 깃허브(https://github.com/FlagOpen/TACO)에서 공개되어 있습니다.