HyperAIHyperAI

Command Palette

Search for a command to run...

AutoFormer:用于视觉识别的Transformer搜索

Minghao Chen Houwen Peng Jianlong Fu Haibin Ling

摘要

近年来,纯Transformer架构模型在图像分类、目标检测等视觉任务中展现出巨大潜力。然而,Transformer网络的设计仍面临诸多挑战。已有研究发现,模型深度、嵌入维度以及注意力头数等关键超参数对视觉Transformer的性能具有显著影响。以往的方法通常依赖人工经验来设定这些超参数。在本工作中,我们提出一种全新的单次架构搜索框架——AutoFormer,专门用于视觉Transformer的自动化搜索。AutoFormer在超网络(supernet)训练过程中,将同一层内不同模块的权重进行耦合(entangle),从而使得训练后的超网络能够高效支持数千个子网络的高质量训练。具体而言,这些子网络继承超网络权重后,其性能可与从头开始训练的模型相媲美。此外,所搜索得到的模型(即AutoFormer)在多项指标上超越了当前最先进的模型,如ViT和DeiT。其中,AutoFormer-tiny/small/base在ImageNet数据集上分别实现了74.7% / 81.7% / 82.4%的Top-1准确率,参数量分别为570万、2290万和5370万。最后,我们通过在下游任务基准测试和知识蒸馏实验中验证了AutoFormer的迁移能力。相关代码与模型已开源,详见:https://github.com/microsoft/AutoML


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供