تاكو: مجموعة بيانات حول المواضيع في توليد الشفرة الخوارزمية

نقدّم TACO، وهو مجموعة بيانات مفتوحة المصدر وذات حجم كبير مخصصة لتمثيل توليد الكود، مع التركيز على جوانب خوارزميات البرمجة، بهدف توفير مجموعة تدريب أكثر تحديًا ومحور تقييم في مجال نماذج توليد الكود. تضم TACO أسئلة برمجة بمستوى مسابقات حقيقية، وهي أكثر صعوبة، مما يعزز قدرة النماذج على فهم المشكلات والتفكير المنطقي في سياقات برمجة واقعية. تتضمن مجموعة التدريب 25,433 مشكلة برمجية، ومجموعة الاختبار 1,000 مشكلة، مع ما يصل إلى 1.55 مليون إجابة متنوعة ومختلفة. علاوة على ذلك، يحتوي كل مشكلة في TACO على عدة علامات دقيقة تشمل مواضيع المهمة، والخوارزميات المستخدمة، والمهارات البرمجية المطلوبة، ومستويات الصعوبة، مما يوفر مرجعًا دقيقًا لتدريب وتحليل نماذج توليد الكود. تُتاح مجموعة البيانات ونصوص التقييم على منصة Hugging Face Hub (https://huggingface.co/datasets/BAAI/TACO) وعلى GitHub (https://github.com/FlagOpen/TACO).