当代语言模型中的地缘政治偏见:“好”国家和“坏”国家的划分
Salnikov, Mikhail ; Korzh, Dmitrii ; Lazichny, Ivan ; Karimov, Elvir ; Iudin, Artyom ; Oseledets, Ivan ; Rogov, Oleg Y. ; Panchenko, Alexander ; Loukachevitch, Natalia ; Tutubalina, Elena
发布日期: 6/11/2025

摘要
本文评估了大型语言模型(LLMs)在解释具有冲突国家视角的历史事件时对不同国家(美国、英国、苏联和中国)的地缘政治偏见。我们引入了一个包含中立事件描述和来自不同国家的对比观点的新数据集。研究结果表明,这些模型存在显著的地缘政治偏见,倾向于支持特定的国家叙事。此外,简单的去偏提示在减少这些偏见方面效果有限。通过操纵参与者标签进行的实验揭示了模型对归属的敏感性,有时会放大偏见或识别出不一致之处,特别是在标签互换的情况下。本研究突显了大型语言模型中的国家叙事偏见,挑战了简单去偏方法的有效性,并为未来的地缘政治偏见研究提供了一个框架和数据集。