
摘要
零样本异常检测(Zero-shot Anomaly Detection, ZSAD)是指在目标数据集没有任何训练样本的情况下,利用辅助数据训练的检测模型识别异常。当由于数据隐私等各类原因导致无法获取训练数据时,该任务尤为重要。然而,该任务极具挑战性,因为模型需在不同领域间实现泛化,而这些领域中前景物体的外观、异常区域以及背景特征(如不同产品或器官上的缺陷/肿瘤)可能存在显著差异。近年来,大规模预训练视觉-语言模型(Vision-Language Models, VLMs),如CLIP,在多种视觉任务中展现出强大的零样本识别能力,包括异常检测。然而,其在ZSAD任务中的表现仍不理想,主要原因在于VLMs更侧重于建模前景物体的类别语义,而非图像中异常与正常状态的本质差异。本文提出一种新颖方法——AnomalyCLIP,旨在将CLIP适配于跨领域高精度的零样本异常检测。AnomalyCLIP的核心思想是学习与具体物体无关的文本提示(object-agnostic text prompts),以捕捉图像中通用的正常性与异常性特征,而不依赖于前景物体的具体类别。这一机制使模型能够聚焦于图像中的异常区域本身,而非物体语义,从而实现对多种类型物体的泛化性正常与异常识别。在17个真实世界异常检测数据集上的大规模实验表明,AnomalyCLIP在来自不同缺陷检测与医学影像领域的、类别语义高度多样化的数据集上,均实现了卓越的零样本异常检测与分割性能。代码将开源,地址为:https://github.com/zqhang/AnomalyCLIP。