حول استخراج النحو من نماذج اللغة عبر التجزئة

التحليل النحوي غير المشرف، المعروف أيضًا باستقراء القواعد، يهدف إلى استنتاج البنية النحوية من النص الخام. حديثًا، أظهر التمثيل الثنائي قدرات ملحوظة في الحفاظ على المعلومات على مستويي المفردات والقواعد. في هذا البحث، نستكشف إمكانية الاستفادة من هذه القدرة لاستنتاج شجرة التحليل من النص الخام، مع الاعتماد فقط على القواعد الضمنية المستقرأة داخل النماذج. لتحقيق ذلك، نقوم بترقية خوارزمية CKY من المستوى الصفر إلى المستوى الأول لترميز المفردات والقواعد في فضاء تمثيلي ثنائي موحد، ونقل التدريب من المراقبة إلى عدم المراقبة تحت إطار تجزئة التباين (contrastive hashing)، وتقديم دالة خسارة جديدة لفرض إشارات تناسق أقوى ومعتدلة. يُظهر نموذجنا أداءً تنافسيًا على مجموعة متنوعة من البيانات، ولذلك نؤكد أن طريقتنا فعّالة وكفؤة بما يكفي للحصول على شجرة تحليل ذات جودة عالية من نماذج اللغة المدربة مسبقًا وبتكلفة منخفضة.