تحسين المُشفِّر الواعي بالهيكل باستخدام كمية متواضعة جدًا من البيانات للتحليل الارتباطي القائم على الرسم البياني

تحليل الاعتماد (Dependency Parsing) هو مهمة أساسية مهمة في معالجة اللغة الطبيعية، حيث يقوم بتحليل البنية النحوية للجملة المدخلة من خلال توضيح العلاقات النحوية بين الكلمات. لتحسين تحليل الاعتماد، أظهرت الدراسات أن الاستفادة من محللات اعتماد موجودة وبيانات إضافية (مثلاً من خلال التعلم شبه المراقب) فعّالة، حتى لو تم تدريب المحلل النهائي على بيانات غير دقيقة (لكنها ضخمة). في هذه الورقة، نقترح نهجًا سهلًا جدًا (ولو كان مُحبِطًا قليلاً) لتحسين تحليل الاعتماد القائم على الرسوم البيانية، حيث يتم تدريب مشغل مُدرك للهيكل مسبقًا على بيانات مُحلَّلة تلقائيًا من خلال التنبؤ بعلاقات الاعتماد بين الكلمات، ثم يتم تحسينه لاحقًا على أشجار اعتماد ذهبية (Gold Dependency Trees)، وهو ما يختلف عن عملية التدريب المسبق التقليدية التي تهدف إلى التنبؤ بالكلمات السياقية على طول المسارات النحوية. أظهرت النتائج التجريبية والتحليلات فعالية ومتانة النهج المقترح في الاستفادة من البيانات (حتى تلك التي تحتوي على ضوضاء) التي تم معالجتها بواسطة محللات مختلفة، حيث تفوق النهج المقترح على النماذج القوية (Baselines) في مختلف البيئات، مع استخدام معايير اعتماد مختلفة، وبنية نماذج مختلفة في مرحلتي التدريب المسبق والتحسين. وأهم من ذلك، وجد التحليل الإضافي أن ما يقارب 2000 جملة مُحلَّلة تلقائيًا يكفي لتحسين أداء المحلل القائم على BERT-large القياسي، دون الحاجة إلى إضافة أي معاملات إضافية.