تحسين مُشغّل الترميز الثنائي للاعتراف بالكيانات المسمّاة عبر التعلم التبايني

نقدم إطارًا ثنائي الترميز لتحديد الكيانات المسمّاة (NER)، والذي يطبق التعلم التضادي لرسم النصوص المرشحة وأصناف الكيانات في نفس مساحة التمثيل المتجهي. العمل السابق كان يعالج مشكلة تحديد الكيانات المسمّاة بشكل أساسي كتصنيف تسلسلي أو تصنيف فواصل. بدلاً من ذلك، نحن نضع تحديد الكيانات المسمّاة في إطار مشكلة تعلم التمثيل التي تزيد من التشابه بين تمثيلات المتجه لذكر كيان ونوعه. هذا يجعل التعامل مع NER المتداخل والبسيط على حد سواء أمرًا سهلًا، ويمكن أن يستفيد بشكل أفضل من إشارات الرقابة الذاتية الضوضائية. أحد أكبر التحديات في صياغة الإطار الثنائي للترميز لتحديد الكيانات المسمّاة هو فصل الفواصل غير الكيانية عن ذكريات الكيان. بدلاً من وضع علامة صريحة على جميع الفواصل غير الكيانية كفئة واحدة هي خارج ($\texttt{O}$) كما هو الحال في معظم الطرق السابقة، نقوم بتقديم دالة خسارة عتبة ديناميكية جديدة. أظهرت التجارب أن طريقتنا تؤدي بشكل جيد في كلٍ من البيئات الخاضعة للرقابة المباشرة والغير مباشرة، سواءً بالنسبة لـ NER المتداخل أو البسيط، مما يحدد حالة جديدة متميزة عبر مجموعة معايير البيانات القياسية في المجال العام (مثل ACE2004، ACE2005) وفي المجالات ذات القيمة العالية مثل الطب الحيوي (مثل GENIA، NCBI، BC5CDR، JNLPBA). نقوم بإصدار الشفرة المصدرية على github.com/microsoft/binder.