التاريخ

منذ 5 أشهر

المؤسسة

رابط الورقة البحثية

2512.06201

الترخيص

CC BY 4.0

الوسوم

معالجة اللغة الطبيعية

الاستدلال

تُعدّ TxT360-3efforts مجموعة بيانات تدريب نماذج لغوية واسعة النطاق لضبط النماذج اللغوية تحت الإشراف (SFT)، وقد أصدرتها جامعة محمد بن زايد للذكاء الاصطناعي عام 2025. الورقة البحثية ذات الصلة هي... K2-V2: ماجستير في القانون مفتوح 360 درجة ومعزز بالاستدلالالهدف هو التحكم في نقاط قوة الاستدلال الثلاثة للنموذج من خلال قوالب الدردشة. تتألف هذه المجموعة من البيانات من حوالي 10 ملايين عينة و10 مليارات رمز تدريبي، تغطي تسع فئات من المهام: الرياضيات، والبرمجة، والحوار العام، والاستدلال في مجالات العلوم والتكنولوجيا والهندسة والرياضيات، واتباع التعليمات، واستخدام الأدوات، ومسار الوكيل، ونمذجة الهوية الذاتية، والمحاذاة الآمنة. وتشمل عددًا كبيرًا من الحوارات متعددة الأدوار وعينات ذات قيود قابلة للتحقق. مصدر البيانات مجموعات بيانات عامة مرخصة مفتوحة المصدر أو بيانات اصطناعية عالية الجودة، وقد خضعت لعمليات ترشيح جودة صارمة، وإزالة التكرارات، وتنقية البيانات من البيانات المرجعية. يتم توليد الإجابات بشكل أساسي بواسطة GPT-OSS-120B بمستويات استدلال مختلفة. تميز مجموعة البيانات بوضوح بين مستويات الاستدلال المنخفضة والمتوسطة والعالية باستخدام قالب محادثة موحد، مما يُمكّن النموذج من التعلم أثناء التدريب لضبط طول التوليد وعمق الاستدلال وفقًا لمتطلبات الاستدلال المختلفة.

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار