Bootleg: متابعة الذيل من خلال التعرف على الكيانات الاسمية ذات التعلم الذاتي

تُشكّل التحديات المرتبطة بتحديد الكيانات المحددة (NED)، وهي المهمة التي تتمثل في ربط الإشارات النصية بالكيانات في قاعدة معرفية، كيفية التمييز بين الكيانات النادرة الحدوث في بيانات التدريب، والمعروفة بـ"الكيانات الطرفية". يستخدم البشر أنماط استدلال دقيقة تعتمد على المعرفة بالحقائق المتعلقة بالكيانات والعلاقات والأنواع لتمييز الكيانات غير المألوفة. مستوحى من هذه الأنماط، نقدّم نظام Bootleg، وهو نظام NED ذاتي التدريب يعتمد صراحةً على أنماط الاستدلال الخاصة بالتمييز. نحدد أنماط استدلال أساسية للتمييز، وننشئ إجراءً تعلّميًا يشجع النموذج ذاتي التدريب على تعلّم هذه الأنماط، ونُظهر كيف يمكن استخدام التدريب الضعيف لتعزيز الإشارات في بيانات التدريب. من خلال ترميز أنماط الاستدلال في بنية مبسطة من نوع Transformer، يحقق Bootleg أداءً يوازي أو يتفوق على أفضل النماذج الحالية على ثلاث معايير NED. ونُظهر أيضًا أن التمثيلات المُتعلّمة من Bootleg تنتقل بنجاح إلى مهام أخرى غير متعلقة بالتمييز، وتتطلب معرفة قائمة على الكيانات: حيث نُسجّل حالة جديدة من الأداء القياسي في مهمة استخراج العلاقات الشهيرة TACRED بفارق 1.0 نقطة F1، ونُظهر ارتفاعًا في الأداء يصل إلى 8% في مهام البحث والإرشاد الإنتاجية المُحسّنة بشكل كبير ضمن شركة تقنية رائدة.