8 个月前

摘要

零样本异常检测（ZSAD）能够在不需要目标数据集训练样本的情况下识别异常，这对于存在隐私问题或数据有限的场景至关重要。像CLIP这样的视觉-语言模型在ZSAD中展现出潜力，但也有其局限性：依赖手动编写的固定文本描述或异常提示既耗时又容易产生语义歧义，且CLIP在像素级异常分割方面表现不佳，更多关注全局语义而非局部细节。为了解决这些局限性，我们提出了一种新的ZSAD框架——KAnoCLIP，该框架利用了视觉-语言模型。KAnOCLIP通过知识驱动提示学习（KnPL）结合了大型语言模型（GPT-3.5）的一般知识和视觉问答系统（Llama3）的细粒度、图像特定知识。KnPL使用一种知识驱动（KD）损失函数来生成可学习的异常提示，消除了对固定文本提示的需求并增强了泛化能力。KAnoCLIP包括带有V-V注意力机制的CLIP视觉编码器（CLIP-VV）、多层级跨模态交互的双向交叉注意力机制（Bi-CMCI）以及卷积适配器（Conv-Adapter）。这些组件保留了局部视觉语义，改进了局部跨模态融合，并将全局视觉特征与文本信息对齐，从而提升了像素级异常检测的效果。KAnoCLIP在12个工业和医学数据集上实现了零样本异常检测领域的最先进性能，展示了相比现有方法更优越的泛化能力。

源 PDF