
要約
ステレオタイプとは、特定の集団に関する過度に一般化された信念のことを指す。たとえば、「アジア人は数学が得意である」や「アジア人は運転が下手である」といった認識がこれに該当する。このような信念(バイアス)は、対象となる集団に悪影響を及ぼすことが知られている。事前学習済み言語モデルは、大規模な現実世界のデータに基づいて学習されるため、ステレオタイプ的なバイアスを捉えてしまうことが明らかになっている。こうしたモデルが引き起こす悪影響を評価するためには、モデルに内在するバイアスを定量的に測定することが重要である。これまでのバイアスの定量化に関する研究では、人工的に構築された少数のバイアス評価用文を用いてモデルの性能を評価していた。本研究では、性別、職業、人種、宗教の4つの領域におけるステレオタイプ的バイアスを測定するための、英語圏における大規模な自然言語データセット「StereoSet」を提示する。我々は、BERT、GPT-2、RoBERTa、XLNetといった代表的なモデルを当該データセット上で評価し、これらのモデルが強いステレオタイプ的バイアスを示していることを明らかにした。また、将来の言語モデルのバイアス動向を追跡できるよう、隠しテストセットを備えたリーダーボードを、https://stereoset.mit.edu にて公開している。