2 个月前

具有层次池化的可扩展视觉变换器

Pan, Zizheng ; Zhuang, Bohan ; Liu, Jing ; He, Haoyu ; Cai, Jianfei
具有层次池化的可扩展视觉变换器
摘要

最近提出的纯注意力机制的视觉图像变换器(ViT)在图像识别任务中,如图像分类,取得了令人鼓舞的性能。然而,当前的ViT模型在推理过程中通常会保持完整的补丁序列,这不仅冗余而且缺乏层次表示。为此,我们提出了一种分层视觉变换器(HVT),该变换器逐步汇聚视觉标记以缩短序列长度,从而减少计算成本,类似于卷积神经网络(CNNs)中的特征图下采样。这一改进带来的显著优势在于,我们可以通过扩展深度、宽度、分辨率或补丁大小来增加模型容量,而不会因序列长度的减少引入额外的计算复杂度。此外,我们通过实证研究发现,平均汇聚的视觉标记比单一类别标记包含更多的判别信息。为了展示我们HVT改进的可扩展性,我们在图像分类任务上进行了广泛的实验。在FLOPs相当的情况下,我们的HVT在ImageNet和CIFAR-100数据集上的表现优于竞争基线模型。代码可在https://github.com/MonashAI/HVT 获取。

具有层次池化的可扩展视觉变换器 | 最新论文 | HyperAI超神经