هل يمكن لـ BERT أن يتناول RuCoLA؟ تحليل البيانات التوپولوجي للشرح

يقوم هذا البحث بدراسة كيفية التقاط النماذج اللغوية للترانسفورمر (LMs) للميزات اللغوية عند تحسينها لتصنيف القبول. نستخدم أفضل الممارسات في تحليل البيانات الطوبولوجية (TDA) في معالجة اللغة الطبيعية: نبني رسومًا بيانية موجهة من مصفوفات الانتباه، نشتق منها الميزات الطوبولوجية، ونقدمها إلى تصنيفات خطية. نقدم ميزتين جديدتين هما الشورية (chordality) ورقم التوافق (the matching number)، ونوضح أن تصنيفات TDA تتفوق على أساسيات التحسين الدقيق. نجري التجارب باستخدام قاعدتي بيانات، وهما CoLA وRuCoLA باللغتين الإنجليزية والروسية، وهما لغتان تنتميان إلى فئات مختلفة من حيث البنية اللغوية. بالإضافة إلى ذلك، نقترح عدة تقنيات استكشاف سوداء الصندوق تهدف إلى اكتشاف التغييرات في وضع الانتباه للنماذج اللغوية أثناء التحسين الدقيق، تحديد ثقة توقعات النموذج اللغوي، وربط الرؤوس الفردية بظواهر نحوية دقيقة. تسهم نتائجنا في فهم سلوك النماذج اللغوية الأحادية اللغة في مهمة تصنيف القبول، وتقدم رؤى حول الأدوار الوظيفية لرؤوس الانتباه، وتسلط الضوء على مزايا الأساليب المستندة إلى TDA لتحليل النماذج اللغوية. نقوم بإصدار الكود والنتائج التجريبية للتوسع فيها مستقبلاً.