17 天前

WinCLIP:零样本/少样本异常分类与分割

Jongheon Jeong, Yang Zou, Taewan Kim, Dongqing Zhang, Avinash Ravichandran, Onkar Dabeer
WinCLIP:零样本/少样本异常分类与分割
摘要

视觉异常分类与分割在自动化工业质量检测中具有重要意义。以往研究主要聚焦于为每项质量检测任务训练专用模型,这通常需要针对特定任务的图像数据及人工标注。本文则突破这一范式,致力于解决零样本(zero-shot)和少量正常样本样本(few-normal-shot)条件下的异常分类与分割问题。近年来,视觉-语言模型CLIP在零样本/少样本任务中展现出卓越的泛化能力,其性能已接近全监督方法。然而,CLIP在异常分类与分割任务上仍存在明显不足。为此,本文提出基于窗口的CLIP模型(WinCLIP),其核心创新包括:(1)对语义词与提示模板进行组合式集成;(2)高效提取并聚合与文本对齐的窗口/图像块/图像级特征。此外,我们进一步提出了WinCLIP+,作为其少量正常样本场景下的扩展版本,通过融合正常图像中的互补信息以提升性能。在MVTec-AD(及VisA)数据集上,未经进一步微调,WinCLIP在零样本异常分类与分割任务中分别取得91.8% / 85.1%(78.1% / 79.6%)的AUROC,而WinCLIP+在1张正常样本条件下分别达到93.1% / 95.2%(83.8% / 96.4%)的AUROC,显著超越现有最先进方法。