HyperAIHyperAI

Command Palette

Search for a command to run...

Console
6 天前

人工蜂群智能:语言模型(及更广泛领域)的开放性同质性

Liwei Jiang Yuanjun Chai Margaret Li Mickel Liu Raymond Fok Nouha Dziri Yulia Tsvetkov Maarten Sap Alon Albalak Yejin Choi

人工蜂群智能:语言模型(及更广泛领域)的开放性同质性

摘要

语言模型(LMs)在生成多样化、类人化创意内容方面常常面临困难,这引发了人们对长期接触相似输出可能导致人类思维趋同的担忧。然而,目前仍缺乏可扩展的方法来评估语言模型输出的多样性,尤其是在超出随机数字或姓名生成等狭隘任务,或超出单一模型重复采样之外的场景。为此,我们提出了 Infinity-Chat——一个包含26,000条多样化、真实世界中开放式用户查询的大规模数据集,这些查询具有广泛的合理回答空间,且不存在唯一正确答案。我们首次构建了一个全面的分类体系,用于刻画语言模型所面对的开放式提示的完整谱系,该体系包含6个顶层类别(如头脑风暴与创意生成),进一步细分为17个子类别。基于 Infinity-Chat,我们开展了一项大规模研究,揭示了语言模型在开放式生成中存在显著的“模式坍缩”现象,表现出一种突出的“人工蜂群思维”效应,其特征包括:(1)模型内重复性,即单个模型持续生成相似回应;以及更显著的(2)模型间同质性,即不同模型生成的输出高度趋同。Infinity-Chat 还包含31,250条人类标注数据,涵盖绝对评分与成对偏好判断,每条样本均有25位独立人类标注者参与。这使得我们能够系统研究人类在面对开放式查询时的集体偏好与个体特异性偏好。研究发现,尽管语言模型、奖励模型和语言模型评判者在整体生成质量上表现相当,但它们在面对引发标注者个体差异性偏好的生成结果时,其评分与人类真实评价的校准程度明显不足。总体而言,Infinity-Chat 是首个用于系统性研究真实世界开放式查询与语言模型互动的大规模资源,为未来研究如何缓解“人工蜂群思维”所引发的长期人工智能安全风险提供了关键洞见。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供