HyperAIHyperAI
منذ 13 أيام

StereoSet: قياس التحيز النمطي في نماذج اللغة المُدرَّبة مسبقًا

Moin Nadeem, Anna Bethke, Siva Reddy
StereoSet: قياس التحيز النمطي في نماذج اللغة المُدرَّبة مسبقًا
الملخص

الصورة النمطية هي اعتقاد مُعمَّم بشكل مفرط حول مجموعة معينة من الناس، مثال على ذلك: "الآسيويون جيدون في الرياضيات" أو "الآسيويون سائقو سيارات سيئون". تُعرف هذه المعتقدات (أو التحيزات) بأنها تضر بالفئات المستهدفة. وبما أن النماذج اللغوية المُدرَّبة مسبقًا تُدرَّب على كميات كبيرة من البيانات الواقعية، فإنها تُعرف بأنها تمتص التحيزات النمطية. ولتقييم الآثار السلبية لهذه النماذج، من الضروري قياس كمية التحيز المُحتَفَظ بها فيها. تقيّم الدراسات الحالية لقياس التحيز النماذج اللغوية المُدرَّبة مسبقًا باستخدام مجموعة صغيرة من الجمل المُصاغة اصطناعيًا لتقييم التحيز. نقدّم "ستيريوسيت" (StereoSet)، وهي مجموعة بيانات طبيعية كبيرة باللغة الإنجليزية، لقياس التحيزات النمطية في أربع مجالات: النوع الجنسي، المهنة، العرق، والدين. قمنا بتقييم نماذج شهيرة مثل BERT وGPT-2 وRoBERTa وXLNet على مجموعتنا، وبيّنا أن هذه النماذج تُظهر تحيزات نمطية قوية. كما قدّمنا لوحة تصنيف (Leaderboard) تتضمن مجموعة اختبار مخفية لمتابعة مستوى التحيز في النماذج اللغوية المستقبلية عبر الموقع الإلكتروني: https://stereoset.mit.edu

StereoSet: قياس التحيز النمطي في نماذج اللغة المُدرَّبة مسبقًا | أحدث الأوراق البحثية | HyperAI