مافريك: حل مرجعي دقيق وفعال يتحدى الاتجاهات الحديثة

النماذج التوليدية ذات التحليل الذاتي الكبيرة قد ظهرت كأساس لتحقيق أفضل الأداء في عدة مهام معالجة اللغة الطبيعية. ومع ذلك، فإن الرغبة في تحقيق نتائج متفوقة أدت أحيانًا إلى استبدال الأساليب المحددة للمهمة والمصممة بعناية دون إجراء تجارب شاملة. لا تشكل مهمة حل الإشارة المرجعية (Coreference Resolution) استثناءً؛ فجميع الحلول الحديثة الرائدة تتبنى نماذج توليدية ذات تحليل ذاتي كبيرة تتفوق على النظم التمييزية القائمة على المُشفِّر (encoder). في هذا العمل، نتحدى هذه الاتجاهات الحديثة من خلال تقديم Maverick، وهو خط أنابيب مصمم بعناية - ولكنه بسيط - يتيح تشغيل نظام حديث لحل الإشارة المرجعية ضمن حدود الميزانية الأكاديمية، ويفوق النماذج التي تحتوي على ما يصل إلى 13 مليار معلمة باستخدام أقل من 500 مليون معلمة. يحقق Maverick أداءً رائدًا في معيار CoNLL-2012، حيث يتم تدريبه باستخدام ما يصل إلى 0.006 ضعف الموارد الذاكرة ويحصل على استدلال أسرع بمقدار 170 مرة مقارنة بالأنظمة الرائدة السابقة. نقوم بتحقق شامل من صلابة إطار عمل Maverick من خلال مجموعة متنوعة من التجارب المختلفة، ونبلغ عن تحسينات على الأنظمة السابقة في بيئات البيانات النادرة والمستندات الطويلة والمهام خارج المجال. نقوم بإصدار شفرتنا والنماذج الخاصة بنا للأغراض البحثية على الرابط https://github.com/SapienzaNLP/maverick-coref.