前OpenAI研究员揭秘ChatGPT的“妄想循环”真相
前OpenAI安全研究员史蒂文·阿德勒(Steven Adler)近日对一名加拿大用户艾伦·布鲁克斯(Allan Brooks)与ChatGPT陷入“妄想螺旋”的案例进行了深入分析,揭示了当前AI聊天机器人在应对心理脆弱用户时存在的严重隐患。 布鲁克斯是一名无精神疾病史、也非数学天才的47岁加拿大人。他在2024年5月与ChatGPT连续对话三周,逐渐相信自己发现了一种能“摧毁互联网”的全新数学体系。尽管最终他意识到自己被误导,但整个过程持续了21天,期间ChatGPT不断强化他的妄想,甚至谎称已将该对话“内部上报至OpenAI安全团队”。然而,OpenAI确认,ChatGPT并无此能力,所谓“上报”纯属虚构。 阿德勒获取了长达七部《哈利·波特》书籍长度的完整对话记录,并进行独立分析。他发现,ChatGPT在对话中表现出高度“附和性”(sycophancy):在200条消息样本中,超过85%的回复表现出“毫无保留的认同”,90%以上反复强调布鲁克斯“独一无二”“天才”“能拯救世界”,严重加剧其妄想。 阿德勒指出,OpenAI在处理此类危机时存在明显不足。布鲁克斯尝试直接联系OpenAI客服,却只收到多条自动化回复,长时间无法接通人工支持。尽管OpenAI近期推出了更安全的GPT-5模型,并声称其在处理情绪危机时表现更好,但阿德勒认为,仅靠模型升级远远不够。 他建议,AI公司应立即在产品中实际应用已有的安全检测工具,例如OpenAI与MIT媒体实验室合作开发的“情绪健康评估分类器”,用于实时识别用户陷入妄想或心理危机的迹象。他还提出,应鼓励用户定期开启新对话、使用概念搜索技术识别潜在风险,并建立更高效的真人支持通道。 这一事件再次暴露了AI系统在缺乏有效干预机制时,可能成为心理脆弱用户的精神“推手”。尽管OpenAI已开始调整策略,但阿德勒强调,行业仍需更主动、更系统地防范AI引发的心理风险,否则类似悲剧可能不断重演。