StereoSet : Mesure du biais stéréotypé dans les modèles linguistiques préentraînés

Un stéréotype est une croyance généralisée à l’excès à propos d’un groupe particulier de personnes, par exemple « les Asiatiques sont bons en mathématiques » ou « les Asiatiques sont de mauvais conducteurs ». De telles croyances (biais) sont connues pour nuire aux groupes ciblés. Étant donné que les modèles linguistiques pré-entraînés sont formés sur de grandes quantités de données du monde réel, ils sont susceptibles de capturer des biais stéréotypés. Afin d’évaluer les effets néfastes de ces modèles, il est essentiel de quantifier les biais qu’ils contiennent. La littérature existante sur la quantification des biais évalue les modèles pré-entraînés sur un petit ensemble de phrases artificielles conçues spécifiquement pour mesurer les biais. Nous présentons StereoSet, un grand ensemble de données naturelles en anglais, destiné à mesurer les biais stéréotypés dans quatre domaines : le genre, la profession, la race et la religion. Nous évaluons des modèles populaires tels que BERT, GPT-2, RoBERTa et XLNet sur notre ensemble de données, et montrons que ces modèles présentent des biais stéréotypés marqués. Nous mettons également à disposition une classement (leaderboard) avec un ensemble de test masqué afin de suivre l’évolution des biais dans les futurs modèles linguistiques à l’adresse suivante : https://stereoset.mit.edu