Command Palette
Search for a command to run...
NASViT:面向高效视觉Transformer的神经架构搜索方法,基于梯度冲突感知的超网络训练
NASViT:面向高效视觉Transformer的神经架构搜索方法,基于梯度冲突感知的超网络训练
Vikas Chandra Qiang Liu Yuandong Tian Zhicheng Yan Xinlei Chen Meng Li Dilin Wang Chengyue Gong
摘要
设计准确且高效的视觉Transformer(Vision Transformers, ViTs)是一项至关重要但极具挑战性的任务。基于超网络(supernet)的一次性神经架构搜索(One-shot Neural Architecture Search, NAS)能够实现快速的架构优化,并已在卷积神经网络(Convolutional Neural Networks, CNNs)上取得了当前最优(State-of-the-Art, SOTA)性能。然而,将基于超网络的NAS直接应用于ViT的优化时,却导致性能显著下降,甚至劣于单独训练的单个ViT模型。在本研究中,我们发现这一性能劣化源于梯度冲突问题:在ViT中,不同子网络的梯度与超网络本身的梯度之间的冲突程度,明显强于在CNN中,从而导致训练过程过早饱和,收敛性能较差。为缓解该问题,我们提出了一系列有效技术,包括梯度投影算法、可切换层缩放设计,以及简化的数据增强与正则化训练方案。这些技术显著提升了所有子网络的收敛能力与最终性能。基于上述方法,我们所发现的混合型ViT模型家族——NASViT,在ImageNet数据集上实现了从200M到800M FLOPs范围内78.2%至81.8%的Top-1准确率,全面超越此前所有先进的CNN与ViT模型(包括AlphaNet、LeViT等)。当迁移至语义分割任务时,NASViT在Cityscapes和ADE20K数据集上同样表现卓越,分别实现了73.2%和37.9%的mIoU指标,且仅需5G FLOPs计算量,显著优于以往主流骨干网络。