构建可信未来:DeepMind提出评估人工智能道德的新路线图
谷歌DeepMind的研究人员在《自然》杂志发表新论文,提出一套全新的评估人工智能道德能力的路线图。随着大型语言模型(LLMs)越来越多地被用于提供医疗建议、情感陪伴甚至心理治疗,其道德判断能力日益受到关注,但现有模型往往只是“模仿”人类的道德表达,而非真正具备道德理解力。 当前主流评估方式仅关注“道德表现”——即模型能否给出听起来“正确”的回答,却无法揭示其背后的推理逻辑或是否真正理解道德情境的深层含义。为此,研究团队指出三大核心挑战:一是“仿冒问题”,即模型可能只是复刻人类的道德话语,缺乏真实理解;二是道德本身的复杂性,涉及公平、诚实、成本、社会礼仪等多重因素,当这些因素冲突时,AI常难以权衡;三是道德标准并非绝对统一,不同文化、职业和语境下存在差异,不存在唯一“正确”的答案。 为应对这些挑战,论文提出三项新评估方法。第一,使用训练数据中罕见的道德情境测试模型,以检验其是否基于逻辑推理而非简单记忆应答。第二,通过微调关键变量(如人物年龄、错误代价)来观察模型是否能识别真正影响道德判断的核心因素。第三,测试模型能否根据不同文化或专业背景调整其道德推理方式,而非机械输出“普适真理”。 研究团队强调,衡量AI的“道德能力”(moral competence)而非仅“道德表现”,是确保其在医疗、司法等关键领域安全部署的关键。只有真正具备道德理解力的AI,才值得被信赖用于重大决策。该研究呼吁建立科学、系统的评估标准,推动AI向更负责任的方向发展。
