3 个月前

HONEST：测量语言模型中的有害句子补全

{Dirk Hovy, Federico Bianchi, Debora Nozza}

摘要

语言模型已彻底革新了自然语言处理（NLP）领域。然而，这些模型在生成文本时往往会捕获并传播具有伤害性的刻板印象。我们的研究结果显示，语言模型在4.3%的情况下会以具有伤害性的词语完成句子。此类现象并非随机发生，而是呈现出明显的语言和性别特定模式。为此，我们提出了一种名为HONEST（Hurtful Omission and Negative Stereotype Test）的评分体系，用于衡量语言模型在文本生成中产生伤害性句子完成的程度。该方法基于系统化的模板与词典结合的偏见评估框架，覆盖六种语言。研究发现，这些模型在很大程度上复制并放大了社会中根深蒂固的性别角色刻板印象：当目标对象为女性时，句子完成内容涉及性滥交的表述比例高达9%；当目标对象为男性时，涉及同性恋的表述比例为4%。这些结果引发了人们对语言模型在生产环境中应用的伦理与社会影响的深刻质疑。