HyperAIHyperAI

Command Palette

Search for a command to run...

13 天前

MediCLIP:面向少样本医学图像异常检测的CLIP适配

Ximiao Zhang Min Xu Dehui Qiu Ruixin Yan Ning Lang Xiuzhuang Zhou

Abstract

在医学决策领域,医学影像中的精确异常检测在辅助临床医生诊断方面发挥着关键作用。然而,以往的研究大多依赖大规模数据集来训练异常检测模型,这显著增加了开发成本。本文首次聚焦于少样本(few-shot)条件下的医学图像异常检测任务,该任务在医学领域尤为重要,因为医学数据的采集与标注均成本高昂。为此,我们提出了一种创新方法——MediCLIP,通过自监督微调策略将CLIP视觉-语言模型适配至少样本医学图像异常检测任务。尽管CLIP作为视觉-语言模型在多种下游任务中展现出卓越的零样本/少样本性能,但在医学图像异常检测任务上仍存在不足。为解决这一问题,我们设计了一系列医学图像异常合成任务,以模拟医学影像中常见的疾病模式,从而将CLIP强大的泛化能力有效迁移至医学图像异常检测任务中。当仅提供少量正常医学图像作为训练样本时,MediCLIP在异常检测与定位性能上均优于现有方法,达到当前最优水平。我们在三个不同的医学异常检测任务上开展了大量实验,充分验证了所提方法的优越性。相关代码已开源,地址为:https://github.com/cnulab/MediCLIP

一句话总结

来自首都师范大学、北京大学第三医院和北京邮电大学的作者提出MediCLIP,一种新颖的少样本医学图像异常检测框架,通过自监督微调结合多任务合成异常生成来适配CLIP模型,仅需极少的正常训练数据即可实现最先进性能,并在多种医学影像任务中展现出强大的零样本泛化能力。

主要贡献

  • 少样本医学图像异常检测是一项关键但研究不足的任务,由于标注医学数据成本高昂且稀缺;MediCLIP通过仅使用每任务少量正常图像即可实现准确的异常检测与定位,无需任何异常图像或像素级标签。
  • MediCLIP通过自监督微调,引入一组新颖的医学图像异常合成任务,模拟多样化的疾病模式,同时利用可学习提示和适配器模块,实现有效的多尺度病灶定位与鲁棒泛化。
  • 在三个医学数据集(CheXpert、BrainMRI 和 BUSI)上的大量实验表明,MediCLIP达到最先进性能,相比现有方法提升约10%,在CheXpert上达到全样本SQUID模型94%的准确率,而训练数据不足1%。

引言

在医学图像分析中,准确的异常检测对临床决策至关重要,但大多数现有方法依赖大规模标注数据集,导致开发成本高昂且难以应用于罕见疾病。以往方法通常需要大量正常数据,在仅提供少量正常图像的少样本场景下表现不佳,限制了实际部署。作者提出MediCLIP,一种新颖框架,通过自监督微调结合合成异常图像,将CLIP视觉-语言模型适配于少样本医学异常检测。为克服真实异常数据缺失的问题,作者设计了针对医学场景的异常合成任务,模拟多样化的疾病模式,使模型能够学习鲁棒的异常表征。MediCLIP进一步通过可学习提示和适配器模块增强定位能力,实现视觉与文本特征在多尺度上的对齐。在三个医学影像数据集(CheXpert、BrainMRI 和 BUSI)上的评估显示,MediCLIP达到最先进性能,相比现有方法提升高达10%,在使用不足1%训练数据的情况下,达到全样本模型94%的性能。值得注意的是,其在不同任务间展现出强大的零样本泛化能力,表明其具有作为统一诊断工具的潜力。

数据集

  • 数据集包含三个医学影像来源:斯坦福CheXpert(胸部X光片)、BrainMRI(二维脑部MRI)和BUSI(乳腺超声图像)。
  • CheXpert包含12种疾病类别,使用临床胸部X光片;BrainMRI包含正常及肿瘤影响的脑部扫描;BUSI包含标注为正常、良性或恶性的乳腺超声图像,并附有像素级疾病标注。
  • 所有疾病病例均视为异常。训练阶段,作者对每个数据集使用k = {4, 8, 16, 32}张正常图像。
  • 测试集包含:CheXpert为250张正常与250张异常图像,BrainMRI为65张正常与155张异常图像,BUSI为101张正常与647张异常图像。
  • 模型采用ViT-L/14 CLIP主干网络,从视觉编码器的第12、18和24层提取特征。
  • 使用可学习标记数M = 8和线性适配器,温度参数τ设为0.07。
  • 异常合成采用三种任务——CutPaste、GaussIntensityChange 和 Source,每种任务以相等概率应用。
  • 对于CutPaste和GaussIntensityChange,使用Perlin噪声生成异常形状,并二值化为掩码;Source任务使用随机大小和旋转的椭圆或矩形作为掩码。
  • 强度变化(γ)在[-0.6, -0.4) ∪ [0.4, 0.6)上均匀采样,混合因子(α)在[√2, 4)上采样。
  • 所有输入图像均调整为224 × 224像素。
  • 实验重复三次,使用不同随机采样的支持集以确保结果稳健性。

方法

作者采用改进的CLIP架构,称为MediCLIP,以解决医学图像中的少样本异常检测问题。整体框架如图所示,集成了可学习提示、适配器和多任务异常合成策略,使视觉-语言模型在极少标注数据下实现异常检测与定位。

框架首先构建可学习提示以表示正常与异常类别。不同于手动设计提示,作者采用可学习词嵌入表示提示标记,记为[V1],[V2],...,[VM][V_1], [V_2], ..., [V_M][V1],[V2],...,[VM],后接固定类别标记[CLS][CLS][CLS]。对于正常情况,使用[healthy]、[normal]等类别标记;对于异常,则使用[disease]。CLIP的文本编码器F()F(\cdot)F()处理这些提示,生成特征表示F(p)F(p)F(p),再取平均得到正常与异常类别的均值特征表示fnf_nfnfaf_afa

为适配原始CLIP模型用于异常检测,作者引入一组可学习适配器ϕj()\phi_j(\cdot)ϕj(),将其插入视觉编码器的多个中间层。视觉编码器Gj()G_j(\cdot)Gj()从合成异常图像X^\hat{X}X^中提取多尺度视觉特征Gj(X^)G_j(\hat{X})Gj(X^)。每个适配器将特征图Gj(X^)G_j(\hat{X})Gj(X^)投影至与提示特征相同维度的空间,得到gjRHj×Wj×Cg_j \in R^{H_j \times W_j \times C}gjRHj×Wj×C。通过余弦相似度(归一化温度参数τ\tauτ)计算投影后的视觉特征gj(h,w)g_j^{(h,w)}gj(h,w)与均值提示特征fnf_nfnfaf_afa之间的相似性,生成每个位置的相似性得分Snj(h,w)S_{n_j}^{(h,w)}Snj(h,w)Saj(h,w)S_{a_j}^{(h,w)}Saj(h,w)。该过程生成正常与异常类别的多尺度相似性矩阵。

框架通过将这些多尺度相似性矩阵上采样至原始图像分辨率H×WH \times WH×W,并计算其平均值,生成最终的相似性图SnS_nSnSaS_aSa。训练损失函数结合Focal损失与Dice损失,作用于拼接后的相似性图与异常掩码YYY,以优化提示与适配器中的可学习参数。推理阶段,移除异常合成模块,查询图像直接输入视觉编码器。异常图由SaS_aSa生成,图像级异常得分由SaS_aSa中的最大值确定。

合成异常图像通过多任务异常合成策略生成,包括CutPaste、GaussIntensityChange和Source。CutPaste通过泊松图像编辑将随机选取的图像块粘贴至新位置,模拟错位异常;GaussIntensityChange通过在掩码内使用高斯噪声改变像素强度,模拟密度变化;Source任务通过将掩码内像素从中心点向外排斥,模拟增殖性异常。这些合成任务旨在生成多样且逼真的异常模式,提升模型对未见异常的泛化能力。

实验

  • MediCLIP在三个数据集上的少样本异常检测中相比其他方法提升约10%,通过基于CLIP的异常合成展现出卓越泛化能力。
  • 在BUSI数据集上,MediCLIP的异常定位精度优于基线方法,可视化结果证实其能精确识别病灶区域。
  • MediCLIP在多种数据集上实现强零样本性能,验证了其通过多任务异常合成策略具备的泛化能力。
  • 消融实验确认可学习标记与适配器的必要性,移除后性能显著下降。
  • 使用辅助工业数据集(MVTec-AD、VisA)训练可提升性能,但医学异常合成带来更好泛化效果,多任务组合进一步提升结果。

作者通过消融实验评估MediCLIP中可学习标记与适配器组件的影响,结果表明移除任一组件均显著降低性能。结果显示,MediCLIP在所有支持集大小下均取得最高Image-AUROC分数,且随着支持集大小增加而提升,在k=32时达到90.1%。

作者使用表4评估MediCLIP中可学习标记与适配器的影响,结果表明两者对最优性能均至关重要。结果显示,用硬提示模板替代可学习标记,或用平均池化替代适配器,均显著降低Image-AUROC,证明二者在模型中的不可替代作用。

结果表明,MediCLIP中可学习标记与适配器的结合显著提升所有数据集上的异常检测性能,当两者同时使用时达到最佳效果。消融实验表明,任一组件均无法被替代而不导致性能大幅下降,凸显其在模型有效性中的关键作用。

作者通过消融实验评估MediCLIP中可学习标记与适配器组件的影响,结果表明在所有数据集上移除任一组件均显著降低性能。结果表明,可学习标记与适配器对实现高Image-AUROC至关重要,MediCLIP在所有配置中表现最优。

作者通过消融实验评估MediCLIP中不同异常合成任务的影响,结果表明多任务组合显著提升所有数据集上的性能。结果显示,完整合成任务组合在CheXpert上达到72.5±1.7,在BrainMRI上达到94.8±0.5,在BUSI上达到90.8±0.4,优于单一或部分任务组合。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供