3ヶ月前

HONEST：言語モデルにおける有害な文完成の測定

{Dirk Hovy, Federico Bianchi, Debora Nozza}

要約

言語モデルは自然言語処理（NLP）分野を革命的に変化させた。しかし、これらのモデルは有害なステレオタイプを捉え、広めてしまう傾向がある、特にテキスト生成において顕著である。本研究の結果から、言語モデルが文を完成させる際に有害な語を用いるケースは、全体の4.3％にのぼることが明らかになった。このようなケースはランダムではなく、言語や性別に特有のパターンに従っている。本研究では、言語モデルにおける有害な文完成を測定するためのスコア「HONEST（Harmful sentence completion evaluation using a systematic template- and lexicon-based approach）」を提案する。このスコアは、6言語に対して体系的なテンプレートおよび語彙ベースのバイアス評価手法を採用している。得られた知見から、これらのモデルは性別役割に関する社会に根ざした深いステレオタイプを再現し、さらに強化していることが示された。ターゲットが女性の場合、文の完成が性的な奔放さを示すケースが9％に達し、男性の場合には同性愛を示すケースが4％に上った。これらの結果は、こうしたモデルを実用環境に導入する際の倫理的・社会的課題を浮き彫りにしている。