HyperAI

华盛顿州立大学教授梅苏特·奇切克及其团队进行了一项关于人工智能在科学领域表现的研究。他们选取了超过 700 个来自科学论文的假设，让 ChatGPT 判断这些陈述是否被研究证实，即判定其真伪。为了确保结果的可靠性，研究团队对每个问题重复进行了 10 次查询。研究结果显示，ChatGPT 在科学事实判断方面的表现并不理想。尽管人工智能在语言生成和常识问答上表现出色，但在处理复杂的科学证据和逻辑推理时，它频繁出错，准确率远低于人类专家水平。这反映出当前的大语言模型在深度理解科学文献、辨别真假数据方面仍存在显著短板。该研究强调，虽然 AI 能辅助科研人员快速处理信息，但不能完全替代人类在验证科学结论时的严谨性。特别是在涉及医疗、工程等关键领域时，盲目依赖 AI 的判断可能会带来严重后果。研究人员指出，目前的模型更多是基于概率生成答案，而非真正理解科学原理，因此在面对需要逻辑推导的“真值判断”任务时，往往会出现自相矛盾或错误断言的情况。这一发现引发了科技界对 AI 安全性的新担忧。随着 AI 工具在科研和教育领域的普及，如何建立有效的验证机制，防止误导性信息传播，成为亟待解决的问题。未来，开发更专注于事实核查的 AI 系统，或结合人类专家的智能审核流程，可能是提升科学领域 AI 可靠性的关键方向。该研究为公众和从业者敲响了警钟：在享受技术便利的同时，必须保持批判性思维，对 AI 输出的信息保持审慎态度。

相关链接

相关链接

相关链接

AI 发现 118 颗新系外行星！华威大学团队提出 RAVEN，实现行星情景与每一种假阳性情景的逐一对比

AI 发现 118 颗新系外行星！华威大学团队提出 RAVEN，实现行星情景与每一种假阳性情景的逐一对比

Command Palette

研究显示 ChatGPT 在科学判断题中表现不佳

相关链接

Command Palette

研究显示 ChatGPT 在科学判断题中表现不佳

相关链接

Command Palette

研究显示 ChatGPT 在科学判断题中表现不佳

相关链接

AI 发现 118 颗新系外行星！华威大学团队提出 RAVEN，实现行星情景与每一种假阳性情景的逐一对比

AI 发现 118 颗新系外行星！华威大学团队提出 RAVEN，实现行星情景与每一种假阳性情景的逐一对比