17 天前
Conviformers:卷积引导的视觉Transformer
Mohit Vaishnav, Thomas Fel, Ivań Felipe Rodríguez, Thomas Serre

摘要
如今,视觉Transformer(Vision Transformer, ViT)已成为图像分类任务的默认选择。图像分类任务大致可分为细粒度分类与粗粒度分类两类。在细粒度分类中,由于子类别之间具有高度相似性,必须识别细微差异。然而,当为节省视觉Transformer所伴随的内存与计算成本而对图像进行下采样时,这些细微特征往往被丢失。本文针对从腊叶标本中进行植物细粒度分类的任务,开展了深入分析,并阐明了构建此类系统的关键组件。我们的大量实验分析表明,亟需更优的数据增强技术,同时现代神经网络应具备处理高维图像的能力。为此,我们提出了一种新型卷积-Transformer架构——Conviformer。与流行的视觉Transformer(ConViT)不同,Conviformer能够在不导致内存与计算成本急剧增长的前提下,有效处理高分辨率图像。此外,我们还引入了一种新颖的改进型预处理方法——PreSizer,该方法可在保持图像原始长宽比的前提下更精准地进行尺寸调整,这一特性在自然植物分类任务中被证明至关重要。通过这一简单而高效的方法,我们在Herbarium 202x与iNaturalist 2019数据集上均取得了当前最优(State-of-the-Art, SoTA)的性能表现。