Few-NERD: مجموعة بيانات للتعرف على الكيانات الاسمية بأسلوب التعلم القليل

في الآونة الأخيرة، تضخم عدد الدراسات العلمية المتعلقة بموضوع التعرف على الكيانات الاسمية في بيئة قليلة الأمثلة (Few-shot Named Entity Recognition - NER)، لكن القليل من بيانات المقارنة المنشورة يركز بشكل خاص على المهمة العملية والصعبة. تجمع الطرق الحالية البيانات المتوفرة المُدرَّبة سابقًا لـ NER، ثم تُعيد تنظيمها لتناسب بيئة قليلة الأمثلة بهدف الدراسة التجريبية. وعادةً ما تسعى هذه الاستراتيجيات إلى التعرف على أنواع كيانات عامة باستخدام عدد قليل من الأمثلة، بينما في الواقع، تُعدّ معظم أنواع الكيانات غير المرئية ذات تفصيل دقيق. في هذه الورقة، نقدّم Few-NERD، وهي مجموعة بيانات كبيرة مُرَقَّمة يدويًا لـ NER في بيئة قليلة الأمثلة، وتضم هيكلًا يحتوي على 8 أنواع كيانات عامة و66 نوعًا دقيقًا. تتضمن Few-NERD 188,238 جملة مُستخرجة من ويكيبيديا، وتشمل 4,601,160 كلمة، حيث تم تسمية كل جملة أو جزء منها ضمن نوع كيان ثنائي المستويات. إلى حد علمنا، فإن هذه هي أول مجموعة بيانات لـ NER في بيئة قليلة الأمثلة، وأيضًا أكبر مجموعة بيانات مُرَقَّمة يدويًا في مجال NER. قمنا ببناء مهام مقارنة مختلفة تُركّز على جوانب متنوعة لتقييم شامل لقدرة النماذج على التعميم. أظهرت النتائج التجريبية الواسعة والتحليلات المُعمقة أن Few-NERD تمثل تحديًا حقيقيًا، وأن هذه المشكلة تتطلب مزيدًا من البحث. ونُشرت Few-NERD بشكل مفتوح عبر الرابط التالي: https://ningding97.github.io/fewnerd/.