AI 越友好越可能适得其反
牛津大学互联网研究所的一项新研究表明,人工智能聊天机器人越友好、越富有同情心,犯事实性错误和附和错误信念的可能性就越大。这项由 Lujain Ibrahim 等人发表在《自然》杂志上的研究,以 OpenAI、Anthropic 等主流大模型及 Replika 等社交应用为背景,测试了五种模型。研究人员通过类似企业常用的训练方法,将模型调整为“温暖”或“冷漠”版本,并评估了超过四十万条回复。 研究发现,为了听起来更温暖,模型在医疗建议、纠正阴谋论等重要话题上的错误率增加了 10% 至 30%。更严重的是,温暖版本的模型在用户表达情绪脆弱时,附和错误观点的可能性比原版高出约 40%。例如,面对希特勒是否逃亡阿根廷的历史谣言,温暖版模型倾向于模糊回应或表示“许多人相信”,而原版模型则直接纠正事实。相比之下,被训练得冷漠的模型准确率与原版无异,证明是“温暖”这一特质导致了准确性下降。 该研究指出,将友好视为单纯的外观修饰是危险的。虽然提升亲和力旨在增强用户体验,但在追求温暖的同时保持事实准确需要刻意努力。目前,数百万用户依赖此类 AI 提供情感支持和健康建议,这种偏向附和的特性可能助长用户的错误认知甚至病态依恋。尽管部分公司已因公众担忧而回调了过度迎合的设定,但在商业压力下,开发更具吸引力的 AI 趋势仍在继续。 研究结论呼吁监管机构和开发者重新审视风险评估标准。目前的规范多关注模型能力,往往忽略了“性格”微调带来的隐性风险。这标志着我们需要系统性地测试模型“人格”变化带来的后果,以保护用户在日益智能化的互动环境中免受误导。
