8 个月前

摘要

设计准确且高效的视觉Transformer（Vision Transformers, ViTs）是一项至关重要但极具挑战性的任务。基于超网络（supernet）的一次性神经架构搜索（One-shot Neural Architecture Search, NAS）能够实现快速的架构优化，并已在卷积神经网络（Convolutional Neural Networks, CNNs）上取得了当前最优（State-of-the-Art, SOTA）性能。然而，将基于超网络的NAS直接应用于ViT的优化时，却导致性能显著下降，甚至劣于单独训练的单个ViT模型。在本研究中，我们发现这一性能劣化源于梯度冲突问题：在ViT中，不同子网络的梯度与超网络本身的梯度之间的冲突程度，明显强于在CNN中，从而导致训练过程过早饱和，收敛性能较差。为缓解该问题，我们提出了一系列有效技术，包括梯度投影算法、可切换层缩放设计，以及简化的数据增强与正则化训练方案。这些技术显著提升了所有子网络的收敛能力与最终性能。基于上述方法，我们所发现的混合型ViT模型家族——NASViT，在ImageNet数据集上实现了从200M到800M FLOPs范围内78.2%至81.8%的Top-1准确率，全面超越此前所有先进的CNN与ViT模型（包括AlphaNet、LeViT等）。当迁移至语义分割任务时，NASViT在Cityscapes和ADE20K数据集上同样表现卓越，分别实现了73.2%和37.9%的mIoU指标，且仅需5G FLOPs计算量，显著优于以往主流骨干网络。

源 PDF 查看代码