مجموعة بيانات الضبط الدقيق للتعليمات متعددة اللغات ومتعددة الجولات M2Lingual
التاريخ
منذ 10 أشهر
الحجم
649.13 MB
رابط النشر
العلامات
الفئات
M2Lingual عبارة عن مجموعة بيانات ضبط التعليمات (IFT) متعددة اللغات ومتعددة الجولات تهدف إلى تحسين أداء نماذج اللغة الكبيرة (LLMs) في اتباع التعليمات، وخاصة في اللغات والمهام المتنوعة. تم إنشاء مجموعة البيانات في عام 2024 بواسطة فريق بحثي من ServiceNow وجامعة إلينوي في شيكاغو.
تتضمن الميزات الرئيسية لمجموعة بيانات M2Lingual ما يلي:
- تغطية متعددة اللغاتيغطي M2Lingual 70 لغة مختلفة، مما يوفر المزيد من بيانات التدريب للغات ذات الموارد المنخفضة.
- حوار متعدد الأدوار:تحتوي مجموعة البيانات على جولات متعددة من التعليمات والاستجابات، مما يعزز قدرة النموذج على التعامل مع سيناريوهات الحوار المعقدة.
- موجه نحو المهام:يتضمن M2Lingual 17 مهمة معالجة اللغة الطبيعية (NLP)، مثل التلخيص، والإجابة على الأسئلة، وأزواج الأوامر والاستجابة العامة.
- على نطاق واسعتحتوي مجموعة البيانات على إجمالي 182000 زوجًا من تعليمات الضبط الدقيق، مما يوفر عينات تدريبية غنية.
- مجموعة بيانات اصطناعيةM2Lingual عبارة عن مجموعة بيانات اصطناعية بالكامل تم إنشاؤها باستخدام تصنيف تطوري محدد، مما يضمن تنوع البيانات وتعقيدها.
- تحسينات الأداء:يظهر برنامج LLM الذي تم ضبطه باستخدام M2Lingual أداءً متفوقًا مقارنة بمجموعات بيانات IFT متعددة اللغات الموجودة على معايير تقييم متعددة.
يقدم تقديم M2Lingual حلاً جديدًا لمشكلة محاذاة التعليمات متعددة اللغات ومتعددة الجولات، مما يساعد على تحسين التطبيق العملي ودقة نماذج اللغة الكبيرة في البيئات متعددة اللغات.
M2Lingual.torrent
البذر 1التنزيل 1مكتمل 112إجمالي التنزيلات 135