HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

ناقش على Discord

التاريخ

منذ شهر واحد

المؤسسة

جامعة محمد بن زايد للذكاء الاصطناعي

رابط الورقة البحثية

2512.06201

الترخيص

CC BY 4.0

تُعدّ TxT360-3efforts مجموعة بيانات تدريب نماذج لغوية واسعة النطاق لضبط النماذج اللغوية تحت الإشراف (SFT)، وقد أصدرتها جامعة محمد بن زايد للذكاء الاصطناعي عام 2025. الورقة البحثية ذات الصلة هي... K2-V2: ماجستير في القانون مفتوح 360 درجة ومعزز بالاستدلالالهدف هو التحكم في نقاط قوة الاستدلال الثلاثة للنموذج من خلال قوالب الدردشة.

تتألف هذه المجموعة من البيانات من حوالي 10 ملايين عينة و10 مليارات رمز تدريبي، تغطي تسع فئات من المهام: الرياضيات، والبرمجة، والحوار العام، والاستدلال في مجالات العلوم والتكنولوجيا والهندسة والرياضيات، واتباع التعليمات، واستخدام الأدوات، ومسار الوكيل، ونمذجة الهوية الذاتية، والمحاذاة الآمنة. وتشمل عددًا كبيرًا من الحوارات متعددة الأدوار وعينات ذات قيود قابلة للتحقق. مصدر البيانات مجموعات بيانات عامة مرخصة مفتوحة المصدر أو بيانات اصطناعية عالية الجودة، وقد خضعت لعمليات ترشيح جودة صارمة، وإزالة التكرارات، وتنقية البيانات من البيانات المرجعية. يتم توليد الإجابات بشكل أساسي بواسطة GPT-OSS-120B بمستويات استدلال مختلفة. تميز مجموعة البيانات بوضوح بين مستويات الاستدلال المنخفضة والمتوسطة والعالية باستخدام قالب محادثة موحد، مما يُمكّن النموذج من التعلم أثناء التدريب لضبط طول التوليد وعمق الاستدلال وفقًا لمتطلبات الاستدلال المختلفة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp