Command Palette
Search for a command to run...
Liwei Jiang Yuanjun Chai Margaret Li Mickel Liu Raymond Fok Nouha Dziri Yulia Tsvetkov Maarten Sap Yejin Choi

摘要
大型语言模型(LMs)在生成多样化、类人化的创造性内容方面常常面临挑战,这引发了人们对长期暴露于相似输出可能导致人类思维趋于同质化的担忧。然而,目前针对语言模型输出多样性的可扩展评估方法仍然有限,尤其是在超出随机数字或姓名生成等狭窄任务,或超出单一模型重复采样之外的场景中。为填补这一空白,我们提出了Infinity-Chat——一个包含26,000条多样化、真实世界中开放式用户查询的大规模数据集,这些查询具有广泛的合理回答空间,且不存在唯一正确答案。我们首次构建了一个全面的分类体系,用于刻画语言模型所面对的开放式提示的完整谱系,该体系包含6个顶层类别(如创造性内容生成、头脑风暴与创意构思等),进一步细分为17个子类别。基于Infinity-Chat,我们开展了一项大规模研究,揭示了语言模型在开放式生成中存在显著的“模式坍缩”现象,表现为(1)模型内部重复性:单个模型持续生成相似的回答;更显著的是(2)模型间同质性:不同模型生成的结果呈现出惊人的相似性。Infinity-Chat还包含31,250条人类标注数据,涵盖绝对评分与成对偏好判断,每条样本均有25位独立人类标注者的评价。这使得我们能够深入研究人类在应对开放式查询时的集体偏好与个体差异。研究发现,尽管最先进的语言模型、奖励模型及模型评判系统在整体生成质量上表现相当,但在面对引发标注者个体偏好差异的生成结果时,其与人类评分的校准程度明显不足。总体而言,Infinity-Chat是首个用于系统性研究真实世界开放式语言模型查询的大规模资源,为缓解由“人工蜂群思维”(Artificial Hivemind)所引发的长期人工智能安全风险提供了关键洞见,有望引导未来研究方向。