vor 16 Tagen

StereoSet: Messung stereotypischer Bias in vortrainierten Sprachmodellen

Moin Nadeem, Anna Bethke, Siva Reddy

Abstract

Ein Stereotyp ist eine übergeneralisierte Überzeugung über eine bestimmte Gruppe von Menschen, beispielsweise „Asiaten sind gut in Mathematik“ oder „Asiaten sind schlechte Fahrer“. Solche Überzeugungen (Bias) sind bekanntermaßen schädlich für die betroffenen Gruppen. Da vortrainierte Sprachmodelle auf großen, realen Datensätzen trainiert werden, sind sie bekannt dafür, stereotypische Vorurteile zu übernehmen. Um die negativen Auswirkungen dieser Modelle zu bewerten, ist es entscheidend, den in ihnen enthaltenen Bias zu quantifizieren. Die bisherige Literatur zur Bias-Quantifizierung bewertet vortrainierte Sprachmodelle anhand einer kleinen Menge künstlich konstruierter Sätze, die auf Bias abzielen. Wir stellen StereoSet vor, eine großskalige, natürliche Datensammlung auf Englisch, um stereotypische Vorurteile in vier Domänen zu messen: Geschlecht, Beruf, Rasse und Religion. Wir evaluieren gängige Modelle wie BERT, GPT-2, RoBERTa und XLNet anhand unserer Datensammlung und zeigen, dass diese Modelle starke stereotypische Vorurteile aufweisen. Zudem präsentieren wir eine Leaderboard-Tabelle mit einem versteckten Testset, um den Bias zukünftiger Sprachmodelle auf https://stereoset.mit.edu zu verfolgen.