17 天前

VPNeXt——重新思考纯视觉Transformer中的密集解码

Xikai Tang, Ye Huang, Guangqiang Yin, Lixin Duan
VPNeXt——重新思考纯视觉Transformer中的密集解码
摘要

我们提出VPNeXt,这是一种面向普通视觉Transformer(Plain Vision Transformer, ViT)的新颖且简洁的模型。与众多采用相同同质化范式的相关研究不同,VPNeXt为基于ViT的密集特征表示提供了全新的视角。具体而言,所提出的VPNeXt针对现有范式中的两个关键问题展开探讨:(1)是否必须依赖复杂的Transformer掩码解码器架构才能获得优良的特征表示?(2)普通ViT是否真的必须依赖人为构建的金字塔特征(mock pyramid feature)来实现上采样?针对问题(1),我们深入分析了Transformer解码器高效性的潜在机制,并提出了视觉上下文重放(Visual Context Replay, VCR)机制,以高效实现类似效果;针对问题(2),我们引入了ViTUp模块,该模块充分挖掘了此前被忽视的ViT原始金字塔特征(real pyramid feature),在上采样性能上显著优于以往依赖人工构造金字塔特征的方法。这是首个在普通ViT语义分割任务中实现此类功能的工作。我们通过消融实验逐步验证了各模块的有效性,并开展了相关对比实验与可视化分析,结果表明,VPNeXt在保持设计简洁高效的同时,达到了当前最优的性能表现。尤为重要的是,所提出的VPNeXt在VOC2012数据集上的平均交并比(mIoU)显著突破了长期存在的性能瓶颈,以大幅领先优势刷新了该数据集的最新纪录,这也是自2015年以来该基准上最大的性能提升。