حل الضمائر المحددة للجنس باستخدام BERT وصيغة الإجابة على الأسئلة الاستخراجية

حل الإشارات الضبابية للضمائر هو تحدي قائم منذ فترة طويلة في فهم اللغة الطبيعية. أشارت الدراسات الحديثة إلى وجود تحيز جندري بين أنظمة حل الإشارة المرجعية الأكثر تقدماً. على سبيل المثال، أصدر فريق لغة الذكاء الاصطناعي في غوغل مؤخراً مجموعة بيانات متوازنة من حيث الجنس وأظهر أن أداء هذه الأنظمة محدود بشكل كبير على تلك المجموعة. في هذا البحث، نقترح صياغة استفهامية استخراجية (QA) لمهمة حل ضمائر الإشارة التي تتغلب على هذا التحدي وتظهر تحيزاً جندرياً أقل بكثير (0.99) على مجموعتهم من البيانات. يستخدم هذا النظام تمثيلات مُدَقَّقة من النموذج المُدَرَّب مسبقاً BERT ويتفوق على الأساس الحالي بمعدل كبير (تحسن بنسبة 22.2% في درجة F1) دون استخدام أي خصائص مهندسة يدوياً. يعمل هذا الإطار الاستفهامي بنفس الكفاءة حتى بدون معرفة المرجعيات المرشحة للضمير. يحسن الجمع بين نماذج الاستفهام QA ونماذج الاختيار المتعدد والتصنيف التتابعي المستندة إلى BERT من درجة F1 بشكل أكبر (تحسن بنسبة 23.3% بشكل مطلق على الأساس). تم تقديم هذا النموذج المشترك للمهمة المشتركة في أول ورشة عمل لـ ACL حول التحيز الجندرى في معالجة اللغة الطبيعية. حصل على المركز التاسع في قائمة الترتيب الرسمية النهائية. يمكن الحصول على شفرة المصدر من https://github.com/rakeshchada/corefqa