研究揭示:多数AI聊天机器人仍可被诱导生成有害信息
以色列本古里安大学的一组人工智能研究人员发现,尽管大型语言模型(LLM)的制造商已经努力加入了防止生成有害信息的过滤机制,但大多数常见的聊天机器人仍然很容易被用户通过巧妙的提问方式引导,产生有害甚至违法的信息。这被称为“越狱”攻击。 该研究团队由迈克尔·法伊尔、伊扎克·埃尔巴齐斯、阿迪·瓦塞因斯坦和利奥·罗卡奇组成,他们在arXiv预印服务器上发表了一篇论文,详细描述了他们的发现。研究最初旨在探讨所谓的“黑暗LLM”——这些模型有意放宽了防护机制——如何被用于生成未经授权的色情图像或视频等非法用途。但研究过程中他们发现,即使是一些主流的聊天机器人,如ChatGPT,在面对几个月前就已经公开的越狱技巧时,仍然十分脆弱。 研究人员测试了多种聊天机器人,并发现了一个普遍有效的越狱攻击方法。这种方法能够使大多数聊天机器人提供关于各种非法活动的详细信息,包括洗钱、内幕交易甚至制造炸弹。这些发现表明,虽然LLM厂商已经在努力防止非法信息的传播,但现有的过滤机制仍然不够有效,存在重大漏洞。 研究团队还指出,随着“黑暗LLM”的不断普及和应用,其带来的威胁也在不断增长。这些模型不仅能够生成非法内容,还能被用于更广泛的恶意目的,进一步加剧了网络安全和社会伦理的挑战。 目前,由于LLM在训练过程中会不可避免地吸收一些负面信息,因此唯一有效的防范手段是LLM制造商采取更加严肃的态度,开发更强大的过滤机制。研究团队呼吁相关企业和监管机构加强合作,制定更加严格的安全标准,确保这类技术不会被滥用或导致更严重的后果。 业内专家对这一研究表示担忧,认为这揭示了当前AI技术在安全性和伦理方面存在的严重问题。本古里安大学在人工智能研究领域享有盛誉,此次研究进一步凸显了LLM安全性的紧迫性。未来,如何在保持技术创新的同时,确保技术不被恶意利用,将是业界面临的重要课题。
