HyperAI

مجموعة بيانات التحسين الدقيقة لنموذج LongCite-45k الكبير

التاريخ

منذ 8 أشهر

الحجم

1.7 GB

المؤسسة

جامعة تسينغهوا

رابط النشر

github.com

LongCite-45k هي مجموعة بيانات مفتوحة المصدر أطلقتها جامعة تسينغهوا في عام 2024. وتهدف إلى تحسين مصداقية وإمكانية التحقق من نماذج اللغة الكبيرة (LLMs) في مهام الإجابة على الأسئلة النصية الطويلة. نتائج الورقة ذات الصلة هيLongCite: تمكين طلاب الماجستير في القانون من إنشاء استشهادات دقيقة في سياق ضمان الجودة الطويل".

تحتوي مجموعة البيانات على 44600 من بيانات الإجابة على الأسئلة عالية الجودة مع الاستشهادات على مستوى الجملة، وتدعم معالجة النصوص الطويلة بحد أقصى يبلغ 128 ألف رمز، وتمكن المستخدمين من التحقق من دقة إجابات النموذج من خلال إنشاء استشهادات دقيقة على مستوى الجملة.

LongCite-45k.torrent
البذر 1التنزيل 1مكتمل 73إجمالي التنزيلات 68
  • LongCite-45k/
    • README.md
      1.22 KB
    • README.txt
      2.45 KB
      • data/
        • LongCite-45k.zip
          1.7 GB