Command Palette
Search for a command to run...
مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts
تُعدّ TxT360-3efforts مجموعة بيانات تدريب نماذج لغوية واسعة النطاق لضبط النماذج اللغوية تحت الإشراف (SFT)، وقد أصدرتها جامعة محمد بن زايد للذكاء الاصطناعي عام 2025. الورقة البحثية ذات الصلة هي... K2-V2: ماجستير في القانون مفتوح 360 درجة ومعزز بالاستدلالالهدف هو التحكم في نقاط قوة الاستدلال الثلاثة للنموذج من خلال قوالب الدردشة.
تتألف هذه المجموعة من البيانات من حوالي 10 ملايين عينة و10 مليارات رمز تدريبي، تغطي تسع فئات من المهام: الرياضيات، والبرمجة، والحوار العام، والاستدلال في مجالات العلوم والتكنولوجيا والهندسة والرياضيات، واتباع التعليمات، واستخدام الأدوات، ومسار الوكيل، ونمذجة الهوية الذاتية، والمحاذاة الآمنة. وتشمل عددًا كبيرًا من الحوارات متعددة الأدوار وعينات ذات قيود قابلة للتحقق. مصدر البيانات مجموعات بيانات عامة مرخصة مفتوحة المصدر أو بيانات اصطناعية عالية الجودة، وقد خضعت لعمليات ترشيح جودة صارمة، وإزالة التكرارات، وتنقية البيانات من البيانات المرجعية. يتم توليد الإجابات بشكل أساسي بواسطة GPT-OSS-120B بمستويات استدلال مختلفة. تميز مجموعة البيانات بوضوح بين مستويات الاستدلال المنخفضة والمتوسطة والعالية باستخدام قالب محادثة موحد، مما يُمكّن النموذج من التعلم أثناء التدريب لضبط طول التوليد وعمق الاستدلال وفقًا لمتطلبات الاستدلال المختلفة.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.