研究:一些语言奖励模型表现出政治偏见
1 个月前
麻省理工学院的研究人员发表了一项新研究,发现大型语言模型(LLMs)在训练过程中可能会表现出政治倾向性偏差。研究人员通过实验发现,即使使用“真实”数据训练奖励模型,也无法消除这种偏见。具体来说,研究人员使用了两种类型的“对齐数据”:一种是基于主观人工偏好,另一种是基于科学事实和常识的“真实”数据。结果显示,无论哪种数据,模型都表现出向左倾斜的政治偏倚。这种偏倚在更大的模型中表现得更为明显,尤其是在气候、能源和劳工工会等话题上,偏见最为明显,而在税收和死刑等话题上则较弱甚至反向。研究人员认为,随着LLMs的广泛应用,理解和解决这种偏见问题变得尤为重要,以确保模型既真实又无偏见。