DISC-Law-SFT مجموعة بيانات ضبط الرقابة القانونية الصينية عالية الجودة
التاريخ
الحجم
رابط النشر
العلامات
* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.
مجموعة بيانات DISC-Law-SFT هي مجموعة بيانات ضبط دقيق خاضعة للإشراف (SFT) عالية الجودة أنشأها مختبر استخبارات البيانات والحوسبة الاجتماعية بجامعة فودان (Fudan-DISC) في عام 2023. تُستخدم لتدريب وتعزيز قدرات تطبيق نماذج اللغة الكبيرة (LLMs) في المجال القانوني وتحتوي على ما يقرب من 300000 بيانات تدريب. تم تصميم مجموعة البيانات هذه خصيصًا للمجال القانوني الصيني، بهدف تحسين قدرات النموذج في معالجة النصوص القانونية، والتفكير المنطقي القانوني، واسترجاع المعرفة والامتثال في المجال القضائي. الورقة ذات الصلة هيDISC-LawLLM: ضبط نماذج اللغات الكبيرة للخدمات القانونية الذكية"
تحتوي مجموعة البيانات على مجموعتين فرعيتين: DISC-Law-SFT-Pair وDISC-Law-SFT-Triplet. تعمل مجموعة DISC-Law-SFT-Pair على تقديم قدرات التفكير القانوني من خلال طريقة بناء زوج التعليمات للقياس القانوني، بينما تعمل مجموعة DISC-Law-SFT-Triplet على تعزيز قدرة النموذج على استخدام المعرفة الخارجية من خلال بناء ثلاثيات تحتوي على معلومات الإدخال والإخراج والمرجع.
تتضمن مصادر البيانات لمجموعة البيانات بشكل أساسي ثلاثة أجزاء: مجموعات البيانات العامة لمهام معالجة اللغة الطبيعية القضائية المتعلقة بالقانون الصيني، والنصوص القانونية الأصلية من العالم الحقيقي، ومجموعات البيانات العامة مفتوحة المصدر. وتضمن مثل هذه المصادر للبيانات تنوع وثراء مجموعة البيانات.