BossNAS:基于块级自监督的混合CNN-Transformer神经架构搜索

近期在手工设计神经网络架构用于视觉识别方面取得了诸多突破,凸显出探索由多样化构建模块组成的混合架构的迫切需求。与此同时,神经架构搜索(Neural Architecture Search, NAS)方法迅速发展,旨在降低人工干预成本。然而,现有NAS方法是否能够高效且有效地处理包含异构候选结构(如CNN与Transformer)的多样化搜索空间,仍是尚未解决的关键问题。在本工作中,我们提出了一种无监督的NAS方法——块级自监督神经架构搜索(Block-wisely Self-supervised Neural Architecture Search, BossNAS),以应对先前方法中因大规模权值共享空间和偏差监督导致的架构评分不准确问题。具体而言,我们将搜索空间分解为独立的模块块(blocks),并引入一种新颖的自监督训练机制——集成自举(ensemble bootstrapping),在全局搜索前对每个块分别进行独立训练,使其逐步向种群中心靠拢。此外,我们设计了一种名为HyTra的新型混合搜索空间,该空间融合了CNN与Transformer结构,具有可搜索的下采样位置,呈现出类似织物的结构特性。在这一具有挑战性的搜索空间上,我们所搜索得到的模型BossNet-T在ImageNet数据集上取得了高达82.5%的准确率,相比EfficientNet提升2.4%,且计算开销相当。同时,在标准的MBConv搜索空间(ImageNet数据集)和NATS-Bench尺寸搜索空间(CIFAR-100数据集)上,我们的方法分别实现了0.78和0.76的Spearman相关系数,显著优于当前最先进的NAS方法,在架构评分准确性方面表现卓越。代码已开源:https://github.com/changlin31/BossNAS