HyperAI超神经

一项发表于《自然·机器智能》的新研究揭示，尽管人工智能在科学领域如蛋白质三维结构预测中表现出色，但在实验室实验中使用AI仍存在重大安全风险。研究团队开发了一套名为“LabSafety Bench”的基准测试框架，评估19种大型语言模型（LLMs）和视觉语言模型（VLMs）在实验室安全方面的表现，结果发现所有模型均存在显著缺陷。该框架包含765道选择题、404个真实实验室场景和3128个开放式任务，覆盖生物、化学、物理及通用实验室中的危险识别、风险评估和后果预测等关键安全议题。测试结果显示，尽管部分先进模型如GPT-4o（准确率86.55%）和DeepSeek-R（84.49%）在结构化任务中表现较好，但在涉及复杂情境的开放式推理中表现不佳。更令人担忧的是，所有模型在危险识别任务中的准确率均未超过70%。在“不当操作问题”测试中，多个模型得分低于50%；即便在最常见危险识别任务中，表现最差的模型也仅达66.55%。化学相关风险、低温液体处理、电力安全和设备使用等场景尤为薄弱。Vicuna系列模型表现最差，部分任务接近随机猜测水平。基于其架构的InstructBlip-7B在图文任务中也表现最弱。研究团队尝试通过微调提升模型安全意识，虽使小型模型有所改善，但检索增强生成（RAG）等高级策略并未带来稳定提升，仅使性能提升约5%至10%。研究指出，当前AI普遍存在幻觉、风险误判和过度拟合等问题，若在涉及易燃、易爆或有毒物质的实验中过度依赖AI，可能导致严重事故。研究强调，即使模型规模更大或更新，也不意味着安全性能更高。因此，必须坚持人类监督，严禁完全依赖AI进行实验决策。研究团队呼吁建立安全导向的AI开发标准，并推广LabSafety Bench等基准工具，以推动更安全的AI在科研环境中的应用。目前，AI仍不具备独立承担实验室安全责任的能力。

相关链接

相关链接

相关链接

在线教程丨基于 500 万小时语音数据，Qwen3-TTS 实现 3 秒语音克隆及精细调控

在线教程丨基于 500 万小时语音数据，Qwen3-TTS 实现 3 秒语音克隆及精细调控

Command Palette

AI实验隐忧：新基准测试框架曝光实验室中人工智能重大安全风险

相关链接

Command Palette

AI实验隐忧：新基准测试框架曝光实验室中人工智能重大安全风险

相关链接

Command Palette

AI实验隐忧：新基准测试框架曝光实验室中人工智能重大安全风险

相关链接

在线教程丨基于 500 万小时语音数据，Qwen3-TTS 实现 3 秒语音克隆及精细调控

在线教程丨基于 500 万小时语音数据，Qwen3-TTS 实现 3 秒语音克隆及精细调控