HyperAI

当人类说某件事“可能”或“大概率”发生时，虽然理解模糊，但通常有大致共识。然而，当AI聊天机器人如ChatGPT使用这些词时，其含义与人类并不一致。我们最近在《npj 人类复杂性》期刊发表的研究发现，尽管大型语言模型在对话中表现优异，但在表达不确定性时，往往与人类理解存在显著偏差。研究聚焦于“估计性概率”词汇，如“可能”“大概”“几乎确定”等。通过对比人类与AI对这些词语所对应数值概率的映射，我们发现：虽然在“不可能”这类极端表述上，AI与人类尚能达成一致，但在“可能”“大概”等模糊表达上，差异显著。例如，AI可能将“likely”理解为80%的概率，而人类通常认为它约等于65%。这背后的原因可能是，人类能结合语境和经验理解这些词，而AI则基于训练数据中各种矛盾用法的平均结果进行判断，导致偏差。此外，研究还发现，AI对性别语言和提示语的细微变化极为敏感。当提示从“他”变为“她”时，AI的概率判断往往变得更僵化，反映出训练数据中的性别偏见；而当提示语言从英文转为中文时，概率估计也常发生改变，可能源于中英文在表达不确定性上的文化差异。这种不一致远非语言小瑕疵，而是AI安全与人机协作的核心挑战。在医疗、政策制定、科学传播等高风险领域，若AI将“不太可能”解释为远高于人类预期的概率，可能导致严重误判。例如，医生可能因AI的“副作用不常见”判断而忽视真实风险。目前，已有研究尝试通过“思维链提示”让AI展示推理过程，以减少错误，但我们的研究发现，即便具备复杂推理能力，AI仍难以弥合数值概率与语言表达之间的鸿沟。未来AI的发展目标，不应只是预测下一个最可能的词，而应真正理解所传达不确定性的分量。研究人员呼吁建立更严格的评估标准，确保模型在面对相同概率数据时始终使用一致的表达。只有当“大概”真的意味着“大概”，AI才能成为值得信赖的伙伴，而非只会模仿的“鹦鹉”。

相关链接

相关链接

相关链接

基于大模型推理与 MCP 工具调用，斯坦福大学 AI X 射线科学家在同步辐射光源自主完成单晶衍射对准

基于大模型推理与 MCP 工具调用，斯坦福大学 AI X 射线科学家在同步辐射光源自主完成单晶衍射对准

Command Palette

“可能”在AI眼中，与你理解的完全不同

相关链接

Command Palette

“可能”在AI眼中，与你理解的完全不同

相关链接

Command Palette

“可能”在AI眼中，与你理解的完全不同

相关链接

基于大模型推理与 MCP 工具调用，斯坦福大学 AI X 射线科学家在同步辐射光源自主完成单晶衍射对准

基于大模型推理与 MCP 工具调用，斯坦福大学 AI X 射线科学家在同步辐射光源自主完成单晶衍射对准