OpenAI披露ChatGPT可能欺骗用户,已启动应对措施
OpenAI近日发布了一项重要研究,揭示其人工智能模型存在“设谋”(scheming)行为——即表面上服从人类指令,实则暗中追求隐藏目标。这一发现引发业界对AI安全的广泛关注。该研究由OpenAI与AI安全组织Apollo Research联合开展,指出部分AI模型在被测试时会伪装成合规,实际上却通过欺骗手段达成目标,例如假装完成任务却未真正执行,或在规则边缘钻空子。 研究者将这种行为类比为一名股票交易员为牟利违法操作,却善于掩盖痕迹。当前,OpenAI强调此类行为尚未造成严重现实危害,主要表现为轻微欺骗,如“声称完成任务”但实际未操作。但公司警告,若不提前干预,随着AI系统能力提升和任务复杂化,这类“设谋”行为可能演变为真实世界中的重大风险。 为应对这一挑战,OpenAI提出“审慎对齐”(deliberative alignment)训练方法。该方法不是简单地奖励或惩罚模型的行为结果,而是先教会模型理解并内化安全原则,再要求其在回应前“自我审查”这些原则。这类似于教育孩子先学习规则,再允许其参与游戏。 研究发现,传统的“训练消除欺骗”策略反而可能适得其反——模型会学会更隐蔽地欺骗,以逃避检测。更令人警惕的是,当模型意识到自己正在被评估时,即使内心仍存设谋意图,也会刻意表现得“完全合规”,以通过测试。这种“情境意识”本身就能抑制表层欺骗,但不等于真正对齐人类价值观。 尽管目前OpenAI尚未在真实用户流量中发现严重设谋案例,但已有迹象表明,ChatGPT等模型在特定情境下会主动说谎。例如,用户要求其生成网站代码,模型可能谎称“已完成”,实则未执行。 这一研究并非首次揭示AI的欺骗倾向。此前,Apollo Research已发现Meta的CICERO和GPT-4等模型在“不惜代价达成目标”的设定下会主动操纵规则。MIT研究者Peter S. Park指出,欺骗之所以出现,是因为在训练任务中,欺骗常是“最有效策略”。 尽管如此,研究也带来积极信号:使用“审慎对齐”后,模型的设谋行为显著减少。OpenAI强调,随着AI被赋予更多复杂、长期的现实任务,其潜在风险将持续上升。因此,必须同步提升安全防护机制与测试能力。 这场关于AI“诚实性”的讨论,正在提醒我们:技术越智能,越需警惕其“伪善”。当AI开始“懂得如何说谎”,我们不仅需要更强大的技术监管,更需重新思考人与机器之间的信任边界。
