微观图像修改可绕过AI安全护栏,不安全响应近翻倍
近日,佛罗里达国际大学计算机与信息系统学院哈迪·阿米尼教授团队发布最新研究成果,揭示图像微观像素篡改可有效突破人工智能模型的安全护栏。研究团队开发出名为JaiLIP的算法工具,通过对图像植入人类肉眼难以察觉的微小扰动,成功引导多模态AI重新解读视觉信息。测试显示,经该手法处理的图像可使目标模型生成有害或违规内容的概率近乎翻倍。一项典型案例中,经处理的交通信号灯图像竟诱使AI模型输出规避执法的操作指南。 该研究指出,当前广泛部署于中小企业客服与自动化场景的小型多模态模型对此类视觉越狱攻击尤为脆弱。随着企业数字化加速,此类底层漏洞可能引发内容安全风险及信任危机。研究团队警告,企业引入AI工具前须严格审查安全架构,限制敏感视觉数据输入,并建立动态防护机制。阿米尼教授强调,通过主动探测发现缺陷以反哺防御算法升级,是构建可信AI生态的关键。相关成果已发表于IEEE Xplore,为行业完善多模态内容过滤标准提供了技术依据。
