تقييد نماذج التقييم التكراري الخطية (Linear-chain CRFs) باللغات المنتظمة

تُشكّل التمثيل المتبادل بين عناصر الهيكل الناتج تحديًا رئيسيًا في التنبؤ المهيكل. عندما تكون النواتج مهيكلة على شكل تسلسلات، فإن النماذج من فئة الحقول العشوائية الشرطية الخطية (CRFs) هي من النماذج الشائعة جدًا التي تتعلم الاعتماديات المحليّة في الناتج. ومع ذلك، فإن افتراض ماركوف الخاص بـ CRFs يجعل من المستحيل تمثيل التوزيعات التي تحتوي على اعتماديات غير محلية، كما أن النماذج القياسية من CRFs غير قادرة على احترام القيود غير المحلية في البيانات (مثل قيود التعددية العالمية على العلامات الناتجة). نقدّم تعميمًا لـ CRFs يمكنه فرض فئة واسعة من القيود، بما في ذلك القيود غير المحلية، من خلال تحديد فضاء الهياكل الناتجة الممكنة كلغة منتظمة $\mathcal{L}$. يمتلك النموذج الناتج، المسمّى بـ CRF المقيد باللغة المنتظمة (RegCCRF)، نفس الخصائص الرسمية لنموذج CRF القياسي، لكنه يُخصّص احتمالًا صفريًا لكل التسلسلات العلامة غير المحتوية في $\mathcal{L}$. وبشكل ملحوظ، يمكن لـ RegCCRFs تضمين قيودها أثناء التدريب، في حين أن النماذج ذات الصلة تفرض القيود فقط أثناء عملية التشفير (الاستنتاج). ونُثبت أن التدريب المقيد لا يكون أبدًا أسوأ من التشفير المقيد، ونُظهر تجريبيًا أنه قد يكون أفضل بشكل ملحوظ في التطبيقات العملية. بالإضافة إلى ذلك، نُظهر فائدة عملية في المهام اللاحقة من خلال دمج نموذج RegCCRF ضمن نموذج عصبي عميق لتمييز الأدوار المعجمية، مما أدى إلى تجاوز النتائج القياسية على مجموعة بيانات قياسية.