17 天前

AutoFormer:用于视觉识别的Transformer搜索

Minghao Chen, Houwen Peng, Jianlong Fu, Haibin Ling
AutoFormer:用于视觉识别的Transformer搜索
摘要

近年来,纯Transformer架构模型在图像分类、目标检测等视觉任务中展现出巨大潜力。然而,Transformer网络的设计仍面临诸多挑战。已有研究发现,模型深度、嵌入维度以及注意力头数等关键超参数对视觉Transformer的性能具有显著影响。以往的方法通常依赖人工经验来设定这些超参数。在本工作中,我们提出一种全新的单次架构搜索框架——AutoFormer,专门用于视觉Transformer的自动化搜索。AutoFormer在超网络(supernet)训练过程中,将同一层内不同模块的权重进行耦合(entangle),从而使得训练后的超网络能够高效支持数千个子网络的高质量训练。具体而言,这些子网络继承超网络权重后,其性能可与从头开始训练的模型相媲美。此外,所搜索得到的模型(即AutoFormer)在多项指标上超越了当前最先进的模型,如ViT和DeiT。其中,AutoFormer-tiny/small/base在ImageNet数据集上分别实现了74.7% / 81.7% / 82.4%的Top-1准确率,参数量分别为570万、2290万和5370万。最后,我们通过在下游任务基准测试和知识蒸馏实验中验证了AutoFormer的迁移能力。相关代码与模型已开源,详见:https://github.com/microsoft/AutoML。

AutoFormer:用于视觉识别的Transformer搜索 | 最新论文 | HyperAI超神经