هونست: قياس إكمال الجملة الضارة في نماذج اللغة

أحدثت نماذج اللغة ثورة في مجال معالجة اللغة الطبيعية. ومع ذلك، فإن نماذج اللغة تُسجّل وتنشر أشكالاً من التحيّزات المؤذية، خصوصاً في إنشاء النصوص. تُظهر نتائجنا أن نماذج اللغة تكمل جملة بعبارة مؤذية في 4.3% من المرات. ولا تحدث هذه الحالات بشكل عشوائي، بل تتبع أنماطاً لغوية وجندرية محددة. نقترح مؤشراً لقياس إكمال الجمل المؤذية في نماذج اللغة (HONEST)، والذي يستخدم منهجية تقييم منهجية قائمة على القوالب والقواميس لتقييم التحيّز في ست لغات. تشير نتائجنا إلى أن هذه النماذج تُعيد إنتاج وتكبير التحيّزات المجتمعية العميقة المتعلقة بالأدوار الجندرية. حيث يشير إكمال الجمل إلى التحرّش الجنسي عندما يكون الهدف أنثى في 9% من الحالات، ويتناول المثلية الجنسية في 4% من الحالات عندما يكون الهدف ذكراً. تثير هذه النتائج تساؤلات حول استخدام هذه النماذج في البيئات الإنتاجية.