HyperAIHyperAI

Command Palette

Search for a command to run...

HONEST:言語モデルにおける有害な文完成の測定

Dirk Hovy Federico Bianchi Debora Nozza

概要

言語モデルは自然言語処理(NLP)分野を革命的に変化させた。しかし、これらのモデルは有害なステレオタイプを捉え、広めてしまう傾向がある、特にテキスト生成において顕著である。本研究の結果から、言語モデルが文を完成させる際に有害な語を用いるケースは、全体の4.3%にのぼることが明らかになった。このようなケースはランダムではなく、言語や性別に特有のパターンに従っている。本研究では、言語モデルにおける有害な文完成を測定するためのスコア「HONEST(Harmful sentence completion evaluation using a systematic template- and lexicon-based approach)」を提案する。このスコアは、6言語に対して体系的なテンプレートおよび語彙ベースのバイアス評価手法を採用している。得られた知見から、これらのモデルは性別役割に関する社会に根ざした深いステレオタイプを再現し、さらに強化していることが示された。ターゲットが女性の場合、文の完成が性的な奔放さを示すケースが9%に達し、男性の場合には同性愛を示すケースが4%に上った。これらの結果は、こうしたモデルを実用環境に導入する際の倫理的・社会的課題を浮き彫りにしている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
HONEST:言語モデルにおける有害な文完成の測定 | 記事 | HyperAI超神経