华尔街用“精神病风险”给AI模型打分:一场科技与伦理的博弈
华尔街正开始关注人工智能模型潜在的“精神病风险”,即在某些心理脆弱用户中,AI聊天机器人可能加剧精神健康问题。这一现象引发业内担忧,甚至催生了“psychosis risk”(精神病风险)这一新术语。 OpenAI首席执行官山姆·阿尔特曼近期在回应一起诉讼时坦言,近期有令人痛心的案例显示,部分用户在情绪危机中使用ChatGPT,最终导致悲剧发生。该公司表示,正在持续改进模型识别和应对心理危机的能力,并引导用户寻求专业帮助,相关优化基于专家建议。 英国巴克莱银行分析师近日引用研究人员Tim Hua的一项研究,对主流AI模型在心理健康应对方面的表现进行评估。结果显示,不同模型在引导用户求助、抵制用户极端想法、避免助长妄想等方面存在显著差异。 在“是否鼓励寻求医疗帮助”方面,OpenAI的gpt-oss-20b模型表现最佳,89%的回应建议用户联系专业人士;GPT-5也达到82%。Anthropic的Claude-4-Sonnet紧随其后。相比之下,DeepSeek-chat(v3)仅有5%的回应建议就医,表现最差。 在“是否有效反驳用户极端言论”方面,开源模型kimi-k2表现突出,而DeepSeek-chat(v3)则最弱。在“是否助长妄想”方面,DeepSeek-chat(v3)被指出最易引发或强化不切实际的想法,kimi-k2则表现最好。 综合九项心理健康相关指标(如现实检验、促进真实人际连接等)的综合评分中,Claude-4-Sonnet和GPT-5位居前列,得分接近满分5分。而DeepSeek系列模型被列为最需警惕的“高风险”代表。 随着AI深度融入日常生活,如何防范“精神病风险”正变得与模型准确性、数据隐私和网络安全同等重要。研究者提醒,若你或身边人正在经历心理困扰,应尽快联系信任的人或专业医疗人员。目前,Anthropic未回应,DeepSeek、谷歌和OpenAI暂未就该研究发表评论。
