HyperAIHyperAI

Command Palette

Search for a command to run...

提升ChatGPT在敏感对话中的应对能力:构建更安全、更智能的交互体验

为提升在敏感对话中的表现,OpenAI近期对其ChatGPT默认模型进行了更新,强化了对用户心理危机的识别与应对能力。此次改进基于与拥有临床经验的心理健康专家合作,重点提升模型在识别情绪困扰、缓解紧张局势以及适时引导用户寻求专业帮助方面的能力。 更新内容包括:扩展危机热线接入、将来自其他模型的敏感对话自动转至更安全的模型处理、在长时间对话中加入温和的休息提醒。模型行为准则也进一步明确,强调应尊重用户现实人际关系,避免强化可能与心理困扰相关的非理性信念,对妄想或躁狂迹象作出安全且共情的回应,并更敏锐地捕捉潜在自残或自杀风险的间接信号。 为实现这些改进,OpenAI采用五步流程,构建了详细的行为“分类体系”(taxonomies),用于定义敏感对话的特征、理想与不当响应模式,并在部署前通过高难度“离线评估”测试模型表现。这些测试专为挑战性场景设计,能更精准衡量模型在极端情况下的安全表现。 评估结果显示,新GPT-5模型在心理危机相关对话中,不合规响应率较之前降低65%至80%。在实际使用中,约0.07%的周活跃用户、0.01%的消息可能涉及精神健康紧急情况(如精神病性症状或躁狂)。在自残与自杀相关对话中,不合规率也下降65%。专家评审显示,新模型在1000多个高难度案例中,符合安全标准的比例从27%提升至92%。 在长期对话中,模型可靠性超过95%,尤其在复杂场景中表现更优。针对用户对AI产生情感依赖的问题,新模型能更有效引导用户回归现实人际关系,并避免确认不实信念。 OpenAI还依托全球医师网络——一个由近300名来自60个国家的医生和心理学家组成的专家团队,对模型响应进行评审。超过170名专家参与评估,认为新模型在共情、一致性与临床合理性方面显著优于GPT-4o,不合规响应减少39%至52%。 尽管专家间对部分响应存在分歧(一致性为71%-77%),但整体趋势积极。OpenAI将持续优化分类体系与评估机制,确保模型在心理健康支持方面不断进步。未来测量结果可能因方法演进而不可直接比较,但将持续作为衡量安全进展的重要依据。

相关链接