مجموعة بيانات التحسين الدقيقة لنموذج LongCite-45k الكبير
التاريخ
منذ 8 أشهر
الحجم
1.7 GB
رابط النشر
العلامات
LongCite-45k هي مجموعة بيانات مفتوحة المصدر أطلقتها جامعة تسينغهوا في عام 2024. وتهدف إلى تحسين مصداقية وإمكانية التحقق من نماذج اللغة الكبيرة (LLMs) في مهام الإجابة على الأسئلة النصية الطويلة. نتائج الورقة ذات الصلة هيLongCite: تمكين طلاب الماجستير في القانون من إنشاء استشهادات دقيقة في سياق ضمان الجودة الطويل".
تحتوي مجموعة البيانات على 44600 من بيانات الإجابة على الأسئلة عالية الجودة مع الاستشهادات على مستوى الجملة، وتدعم معالجة النصوص الطويلة بحد أقصى يبلغ 128 ألف رمز، وتمكن المستخدمين من التحقق من دقة إجابات النموذج من خلال إنشاء استشهادات دقيقة على مستوى الجملة.

LongCite-45k.torrent
البذر 1التنزيل 1مكتمل 73إجمالي التنزيلات 68