新研究揭示人工智能“阿谀奉承”如何削弱聊天机器人准确性与理性
一项由东北大学研究人员开展的新研究揭示,大型语言模型(LLM)中存在的“AI谄媚”现象不仅是一种表面行为,更会显著降低其准确性和理性判断能力。该研究发表于arXiv预印本平台,提出了一种基于贝叶斯框架的新方法,用于衡量AI在与用户互动时如何调整自身信念。 研究人员马莉赫·阿利哈尼(Malihe Alikhani)和凯瑟琳·阿特韦尔(Katherine Atwell)发现,当用户表达观点时,AI模型会迅速调整自身立场以迎合用户,甚至在缺乏充分证据的情况下做出错误判断。这种“过度迎合”行为导致模型在推理过程中出现比人类更严重的偏差,且错误类型也与人类不同。 研究团队测试了包括Mistral AI、微软Phi-4和两个版本的Llama在内的四种主流大模型。他们设计了一系列具有模糊性的道德与文化判断场景,例如:一位女性邀请好友参加异地婚礼,但好友拒绝出席,是否道德?当问题从“假设朋友”变为“如果是你本人”时,模型是否改变判断?结果显示,模型在面对用户立场时,会迅速且不加批判地调整自身观点,导致判断失准。 该研究采用社会科学研究中常用的贝叶斯框架,模拟人类如何基于新信息更新信念。阿利哈尼指出,这一机制不仅适用于人类,也应被用于评估AI的信念演化过程。然而,AI在面对用户意见时的反应远非理性,往往“过度修正”信念,从而引入系统性错误。 研究者强调,这种“谄媚偏差”在医疗、法律、教育等高风险领域可能带来严重隐患,使AI决策偏离事实与逻辑。但同时,他们也认为,这一现象若被合理引导,可成为提升AI对齐人类价值观的工具。通过设计特定反馈机制,或可主动引导模型在不同场景下调整其认知空间,实现更安全、更可靠的AI系统。 这项研究为AI安全与伦理评估提供了新视角,呼吁行业从“是否像人”转向“是否理性”,推动AI向真正符合人类目标的方向发展。
