6 个月前

摘要

视觉异常分类与分割在自动化工业质量检测中具有重要意义。以往研究主要聚焦于为每项质量检测任务训练专用模型，这通常需要针对特定任务的图像数据及人工标注。本文则突破这一范式，致力于解决零样本（zero-shot）和少量正常样本样本（few-normal-shot）条件下的异常分类与分割问题。近年来，视觉-语言模型CLIP在零样本/少样本任务中展现出卓越的泛化能力，其性能已接近全监督方法。然而，CLIP在异常分类与分割任务上仍存在明显不足。为此，本文提出基于窗口的CLIP模型（WinCLIP），其核心创新包括：（1）对语义词与提示模板进行组合式集成；（2）高效提取并聚合与文本对齐的窗口/图像块/图像级特征。此外，我们进一步提出了WinCLIP+，作为其少量正常样本场景下的扩展版本，通过融合正常图像中的互补信息以提升性能。在MVTec-AD（及VisA）数据集上，未经进一步微调，WinCLIP在零样本异常分类与分割任务中分别取得91.8% / 85.1%（78.1% / 79.6%）的AUROC，而WinCLIP+在1张正常样本条件下分别达到93.1% / 95.2%（83.8% / 96.4%）的AUROC，显著超越现有最先进方法。

源 PDF