HyperAI超神经

纠正您:自动转向去噪轨迹以规避不希望的概念

Leyang Li, Shilin Lu, Yan Ren, Adams Wai-Kin Kong
发布日期: 4/18/2025
纠正您:自动转向去噪轨迹以规避不希望的概念
摘要

确保文本到图像模型的伦理部署需要有效的技术手段来防止生成有害或不适当的内容。尽管概念擦除方法提供了一种有前景的解决方案,但现有的基于微调的方法存在显著的局限性。无锚点方法可能会破坏采样轨迹,导致视觉伪影,而基于锚点的方法则依赖于启发式选择的锚点概念。为克服这些不足,我们提出了一种微调框架,称为ANT(Automatically guides deNoising Trajectories),该框架能够自动引导去噪轨迹以避免不希望的概念。ANT的核心在于一个关键见解:在中期到晚期去噪阶段反转分类器自由引导的方向,可以在不牺牲早期结构完整性的情况下实现精确的内容修改。这一见解启发了一个轨迹感知的目标函数,该函数能够在不依赖启发式锚点概念选择的情况下,保持早期阶段得分函数场的完整性,从而引导样本向自然图像流形靠拢。对于单概念擦除,我们提出了一种增强型权重显著性图(augmentation-enhanced weight saliency map),能够精确识别对不希望概念贡献最大的关键参数,从而实现更彻底和高效的擦除。对于多概念擦除,我们的目标函数提供了一个灵活的即插即用解决方案,显著提升了性能。大量实验表明,ANT在单概念和多概念擦除方面均达到了最先进的水平,能够生成高质量且安全的图像输出,同时不会损害生成保真度。代码可在以下地址获取:https://github.com/lileyang1210/ANT