HyperAIHyperAI
منذ 16 أيام

التصنيف الدقيق جدًا للكيانات باستخدام الإشراف الضعيف من نموذج لغة مُغَطَّى

Hongliang Dai, Yangqiu Song, Haixun Wang
التصنيف الدقيق جدًا للكيانات باستخدام الإشراف الضعيف من نموذج لغة مُغَطَّى
الملخص

في الآونة الأخيرة، تُبذل جهود لتوسيع تصنيف الكيانات الدقيقة من خلال استخدام مجموعة غنية ودقيقة للغاية من الفئات، ووضع تسميات على عبارات اسمية تشمل الضمائر والاسماء الصريحة، وليس فقط الإشارات إلى الكيانات المعرفة. يمثل التحدي الرئيسي لهذا المهمة هو ندرة البيانات المُعلَّمة يدويًا من قبل البشر، وحدود قدرة الأساليب الحالية القائمة على التدريب البعيد (distant supervision) أو التدريب الضعيف (weak supervision) على التصنيف. ولحل هذه المشكلة، نقترح في هذه الورقة استخدام نموذج اللغة المُقنع (BERT Masked Language Model - MLM) لاستخراج بيانات التدريب لتصنيف الكيانات الدقيقة جدًا. عند إعطاء إشارة (mention) ضمن جملة، يُنشئ نهجنا مدخلًا لنموذج BERT MLM بحيث يتنبأ بفُرَى (hypernyms) تابعة للسياق للإشارة، والتي يمكن استخدامها كتسميات للفئة. تُظهر النتائج التجريبية أن الأداء النموذجي لتصنيف الكيانات الدقيقة جدًا يمكن تحسينه بشكل ملحوظ بمساعدة هذه التسميات المولدة تلقائيًا. كما نُظهر أن نهجنا يمكن تطبيقه لتحسين تصنيف الكيانات الدقيقة التقليدي بعد إجراء تحويل بسيط للأنواع.

التصنيف الدقيق جدًا للكيانات باستخدام الإشراف الضعيف من نموذج لغة مُغَطَّى | أحدث الأوراق البحثية | HyperAI