HyperAI

LawInstruct: أول مجموعة بيانات واسعة النطاق للتعليمات القانونية

التاريخ

منذ عام واحد

الحجم

9.84 GB

المؤسسة

جامعة ستانفورد

رابط النشر

huggingface.co

LawInstruct هي أول مجموعة بيانات تعليمات واسعة النطاق للمجال القانوني. تم إنشاء مجموعة البيانات هذه بشكل مشترك من قبل جامعة ستانفورد وجامعة جونز هوبكنز ومؤسسات أخرى، وتم إصدارها في أبريل 2024. تم إنشاء LawInstruct لسد الثغرات في مجموعات البيانات الحالية للمهام القانونية وتسريع تطوير النماذج في المجال القانوني.

  1. خصائص مجموعة البيانات:
    • التغطية: يغطي LawInstruct 17 ولاية قضائية و24 لغة، مما يضمن إمكانية التطبيق الواسعة وتنوع مجموعة البيانات.
    • الحجم والتنوع: يحتوي على 12 مليون مثال تدريبي، تغطي مجموعة متنوعة من المهام القانونية مثل الإجابة على الأسئلة، والاستنتاج، والتلخيص، واستخراج المعلومات.
  2. بنية مجموعة البيانات:
    • يتم تقديم كل مثال بتنسيق تعليمات مخصص، مما يضمن اتساق البيانات وقابلية التشغيل.
    • إنه يدمج 58 مجموعة بيانات عالية الجودة من المهام القانونية والمجالات المهنية المختلفة.
  3. التنفيذ الفني:
    • لقد استخدمنا MultiLegalPile، وهو عبارة عن مجموعة قانونية متعددة اللغات بحجم 689 جيجابايت، لتوفير مواد تدريبية مسبقة غنية للنموذج.
  4. تحسينات الأداء:
    • من خلال ضبط التعليمات على LawInstruct، تم تحسين الدقة المتوازنة لنموذج Flan-T5 XL على LegalBench بشكل كبير، مما يؤكد التأثير الإيجابي لمجموعة البيانات على أداء النموذج.
  5. الأبحاث والأوراق العلمية:
LawInstruct.torrent
البذر 1التنزيل 1مكتمل 89إجمالي التنزيلات 199
  • LawInstruct/
    • README.md
      2.09 KB
    • README.txt
      4.18 KB
      • data/
        • lawinstruct.zip
          9.84 GB