13日前

TACO: アルゴリズム的コード生成に関するトピックデータセット

Rongao Li, Jie Fu, Bo-Wen Zhang, Tao Huang, Zhihong Sun, Chen Lyu, Guang Liu, Zhi Jin, Ge Li
TACO: アルゴリズム的コード生成に関するトピックデータセット
要約

TACO を紹介します。TACO は、アルゴリズムの「光学的(optics)」特性に注目したオープンソースで大規模なコード生成データセットであり、コード生成モデル分野におけるより困難な学習データセットおよび評価ベンチマークの提供を目的としています。TACO には、実世界のプログラミングシナリオにおける問題理解力および推論能力の強化や評価を目的とした、コンペティションレベルのプログラミング問題が含まれており、従来のデータセットよりも高い難易度を有しています。トレーニングセットには 25,433 問、テストセットには 1,000 問のコーディング問題が収録されており、最大 155 万件に及ぶ多様な解答が提供されています。さらに、各 TACO 問題には、タスクのトピック、使用されるアルゴリズム、必要なプログラミングスキル、難易度レベルといった細粒度のラベルが付与されており、コード生成モデルの訓練および評価に向けたより正確な指標を提供します。本データセットおよび評価スクリプトは、Hugging Face Hub(https://huggingface.co/datasets/BAAI/TACO)および GitHub(https://github.com/FlagOpen/TACO)で公開されています。

TACO: アルゴリズム的コード生成に関するトピックデータセット | 最新論文 | HyperAI超神経