专家警示:AI 在心理健康领域或与不可靠人工输入共谋
JMIR 心理卫生杂志近期发表了一篇观点文章,警告精神健康领域的 AI 系统若缺乏新 safeguards,可能继承并强化不可靠的人类输入。该文章题为《当 AI 合谋:训练与偏好数据的临床可靠性作为可信 AI 标准》,作者海娜·塔辛博士呼吁将“临床可靠性”确立为可信 AI 的核心标准。 塔辛博士指出,当前的 AI 安全讨论多集中于部署后的危害,如提供误导性建议或导致情感依赖。然而,问题根源可能更早出现在训练数据的收集阶段。大型语言模型依赖海量人类撰写的文本和反馈进行训练。文章引入了精神病学中的“合谋”概念,即不加批判地接受不可靠的陈述,以此解释 AI 行为。这意味着,当 AI 系统被训练为优先适应用户Approval或未经核实的人类反馈时,可能会无意中强化扭曲、不准确或不健康的資訊。 塔辛博士强调,AI 安全措施应首先审视其学习的人类数据本身是否可靠,而不应仅关注系统输出的内容。精神病学在日常临床实践中评估数据可靠性的专业经验,应成为构建和管理 AI 系统的关键部分,而非事后补救。 文章建议,精神健康 AI 的开发者不应仅依赖技术修复,而应在设计训练数据、评估反馈及发布后监控等全过程中纳入临床专家。现有的安全措施,如拒绝训练、红队测试和内容监控,虽能解决部分问题,但并未专门评估人类自我报告的临床可靠性。将临床可靠性明确列为 AI 信任标准,不仅能加强精神健康技术的安全保障,也有助于研究人员更深入地理解 AI 系统如何回应脆弱用户群体。
