HyperAI

مجموعة بيانات مهام الاستدلال Stratos 17k المصممة خصيصًا

التاريخ

منذ 2 أشهر

الحجم

107.46 MB

المؤسسة

رابط النشر

huggingface.co

*تدعم مجموعة البيانات هذه الاستخدام عبر الإنترنت.انقر هنا للقفز.

Bespoke-Stratos-17k هي مجموعة بيانات عالية الجودة مصممة لمهام الاستدلال، طورها فريق Bespoke Labs في عام 2025. المدونة ذات الصلة هي "بيسبوك-ستراتوس: الفعالية غير المعقولة لتقطير المنطقتم إنشاء مجموعة البيانات هذه من خلال تحسين خط أنابيب بيانات Sky-T1 من Berkeley واستخدام البيانات المُنقّاة من DeepSeek-R1، وهي مصممة لدعم تدريب نماذج الاستدلال عالية الأداء. تحتوي مجموعة البيانات على أسئلة، وتتبعات استدلال، وإجابات، تغطي مجالات متنوعة مثل البرمجة، والرياضيات، والألغاز العلمية. باستخدام أداة Bespoke Curator، يمكن إنشاء مجموعة بيانات استدلال عالية الجودة في غضون ساعة ونصف فقط، بتكلفة حوالي 800 دولار أمريكي. تستخدم مجموعة البيانات هذه DeepSeek-R1 كنموذج استدلال للمعلم، مما يُبسط عملية إنشاء البيانات دون الحاجة إلى خطوات تنسيق إضافية. بالإضافة إلى ذلك، أدى تصفية الحلول الرياضية غير الصحيحة باستخدام gpt-4o-mini إلى تحسين كبير في معدل الاحتفاظ بالحلول الرياضية الصحيحة من 25% إلى 73%.

تتكون مجموعة البيانات من 3 أجزاء: بيانات البرمجة (5000 بيانات من APPs وTACO)، وبيانات الرياضيات (10000 بيانات من مجموعات AIME وMATH وOlympiads من مجموعة بيانات NuminaMATH)، وبيانات العلوم والألغاز (1000 بيانات من STILL-2). تم استخدام هذه البيانات لتدريب نموذجين للاستدلال، Bespoke-Stratos-32B وBespoke-Stratos-7B، واللذين حققا أداءً جيدًا في معايير الرياضيات والتفكير البرمجي، متفوقين على النماذج السابقة.

Bespoke-Stratos-17k.torrent
البذر 2التنزيل 1مكتمل 42إجمالي التنزيلات 40
  • Bespoke-Stratos-17k/
    • README.md
      2.05 KB
    • README.txt
      4.09 KB
      • data/
        • Bespoke-Stratos-17k.zip
          107.46 MB