مِينِر: تحسين التعرف على الكيانات المحددة خارج قاموس الكلمات من منظور نظري معلوماتي

أظهر نموذج التعرف على الكيانات (NER) أداءً واعدًا على معايير NER القياسية. ومع ذلك، تشير الدراسات الحديثة إلى أن النهج السابقة قد تعتمد بشكل مفرط على معلومات ذكر الكيانات، مما يؤدي إلى أداء ضعيف في التعرف على الكيانات التي لا توجد في القاموس (OOV). في هذا العمل، نقترح إطارًا تعلّميًا جديدًا لـ NER يُسمى MINER، لمعالجة هذه المشكلة من منظور نظري معلوماتي. يتضمن النهج المقترح هدفين تدريسيين مبنيين على المعلومات التبادلية: (أ) تعميم تحسين المعلومات، الذي يعزز التمثيل من خلال فهم عميق للسياق وأشكال الكيان السطحية؛ و(ب) تقليل المعلومات الزائدة، الذي يُقلل من احتمالية تمثيل النموذج للحفظ الآلي لأسماء الكيانات أو الاستفادة من مؤشرات متحيزة في البيانات. أظهرت التجارب في مختلف الإعدادات وال datasets أن النموذج يحقق أداءً أفضل في التنبؤ بالكيانات التي لا توجد في القاموس.