مجموعة بيانات الضبط الدقيق للتعليمات المنظفة بواسطة Alpaca
التاريخ
الحجم
رابط النشر
العلامات
مجموعة بيانات Alpaca-Cleaned هي نسخة منقحة من مجموعة بيانات Alpaca الأصلية التي أصدرتها جامعة ستانفورد في عام 2024. مجموعة بيانات Alpaca الأصلية هي مجموعة بيانات تحتوي على 52000 تعليمة وعرض توضيحي تم إنشاؤها بواسطة محرك OpenAI (text-davinci-003). يمكن استخدام بيانات التعليمات هذه لإجراء تعديلات على التعليمات في نموذج اللغة حتى يتبع نموذج اللغة التعليمات بشكل أفضل.
تعمل مجموعة البيانات هذه على إصلاح بعض المشكلات الموجودة في Alpaca الأصلية، مثل الإجابات الوهمية والتعليمات المدمجة والمخرجات الفارغة وحقول الإدخال غير المتسقة، وبالتالي تحسين جودة البيانات وتناسقها. تحتوي مجموعة بيانات Alpaca-Cleaned على سيناريوهات تطبيق مختلفة، بما في ذلك إنشاء النصوص، وأنظمة الإجابة على الأسئلة، وفهم اللغة الطبيعية، وفهم الكود وتوليده. وتشمل ميزاته تحسين الجودة وتحسين الأداء وموارد النموذج الغنية ورمز المصدر المفتوح ودعم المجتمع. ويشجع المشاركة المجتمعية والتحديث والتحسين المستمر، ويعزز تطوير مجال البرمجة اللغوية العصبية.