11 天前

视觉Transformer即插即用:少样本无类别计数的一个惊人基线

Zhicheng Wang, Liwen Xiao, Zhiguo Cao, Hao Lu
视觉Transformer即插即用:少样本无类别计数的一个惊人基线
摘要

无类别计数(Class-agnostic Counting, CAC)旨在仅通过少量样本图像(exemplars)作为参考,对查询图像中的目标对象进行计数。传统方法通常采用“先提取特征,再进行匹配”的范式:分别提取查询图像与样本图像的特征,然后通过计算特征相似性完成匹配。在本工作中,我们提出一种更为简化的“提取并匹配”(extract-and-match)策略,特别地,利用视觉Transformer(Vision Transformer, ViT)架构,使特征提取与相似性匹配过程在自注意力(self-attention)机制内部同时完成。我们从自注意力机制的解耦视角揭示了该简化策略的内在原理。由此提出的模型命名为CACViT,其将原本复杂的CAC流程简化为单一的预训练普通ViT模型。为进一步弥补普通ViT在图像缩放与归一化过程中丢失的尺度信息与数量级信息,我们设计了两种有效的尺度与数量级嵌入策略。在FSC147与CARPK两个基准数据集上的大量实验表明,CACViT在计数性能与泛化能力方面均显著优于当前最先进的CAC方法,误差降低达23.60%。结果表明,CACViT为无类别计数任务提供了一个简洁而强大的基准模型。代码将随后公开。

视觉Transformer即插即用:少样本无类别计数的一个惊人基线 | 最新论文 | HyperAI超神经