أطلقت InfinityInstruct-3M مجموعة بيانات لضبط التعليمات بدقة تتضمن عشرة ملايين
التاريخ
منذ عام واحد
الحجم
2.79 GB
رابط النشر
الفئات
InfinityInstruct هو مشروع واسع النطاق وعالي الجودة لضبط التعليمات مفتوح المصدر أطلقته أكاديمية بكين للذكاء الاصطناعي (BAAI). يهدف هذا المشروع إلى تطوير مجموعة بيانات تحتوي على ملايين التعليمات لدعم قدرات تتبع التعليمات للنماذج اللغوية الكبيرة وبالتالي تحسين أداء النموذج.
هذه النسخة هي مجموعة بيانات تعليمات InfinityInstruct-3M، ومن المتوقع إصدار النسخة النهائية في نهاية شهر يونيو.
تتضمن ميزات InfinityInstruct ما يلي:
- مجموعات البيانات واسعة النطاق:يخطط المشروع لإصدار عشرات الملايين من بيانات الأوامر، وتم إصدار 3 ملايين من بيانات الأوامر باللغتين الصينية والإنجليزية في المرحلة الأولى.
- فحص عالي الجودةيقوم معهد Zhiyuan للأبحاث بإجراء تحليل ميداني وفحص الجودة على البيانات المفتوحة المصدر الموجودة لضمان القيمة العالية للبيانات، وتعزيز البيانات في المناطق التي تفتقر إليها.
- مساهمات مجتمع المصدر المفتوح:أثناء عملية إنشاء مجموعة البيانات، قدم مجتمع المصدر المفتوح كمية كبيرة من بيانات التعليمات، بما في ذلك مجموعات البيانات من مصادر متعددة، مثل OpenHermes-2.5، وUltraInteract_sft، وCodeBagel، وما إلى ذلك.
- تقييم المخاطر وتوليد البياناتويقوم فريق المشروع حاليًا بإجراء تقييم المخاطر وتوليد البيانات ويتوقع إصدار النسخة النهائية التي تحتوي على 10 ملايين تعليمة بحلول نهاية شهر يونيو.
- تحسينات الأداء:لقد أثبتت مجموعة البيانات الحالية مفتوحة المصدر المكونة من 3 ملايين تعليمة قدرات بيانات SFT (الضبط الدقيق الخاضع للإشراف) التي تتجاوز مجموعات البيانات الحالية مثل Mistral و Openhermes.
- النظرة المستقبلية:من المتوقع أنه بعد زيادة كمية البيانات إلى عشرات الملايين، فإن نموذج الحوار المدرب على أساس مجموعة بيانات الضبط الدقيق للتعليمات سيكون قادرًا على الوصول إلى مستوى GPT-4.
يعد تطوير وإصدار مجموعة بيانات InfinityInstruct أمرًا ذا أهمية كبيرة لتعزيز البحث وتطبيق نماذج اللغة واسعة النطاق. إنه يوفر بيانات تعليمات غنية للنماذج الكبيرة ويساعد في تحسين قدرة النموذج على فهم التعليمات وتنفيذها. وفي الوقت نفسه، تعمل طبيعتها مفتوحة المصدر أيضًا على تعزيز التعاون وتبادل المعرفة في مجتمع الذكاء الاصطناعي.
InfinityInstruct-3M.torrent
البذر 1التنزيل 1مكتمل 111إجمالي التنزيلات 123