HyperAIHyperAI

Command Palette

Search for a command to run...

UniNet:融合卷积、Transformer与MLP的统一架构搜索

Jihao Liu Xin Huang Guanglu Song Hongsheng Li Yu Liu

摘要

近年来,Transformer 与多层感知机(MLP)架构在各类视觉任务中取得了令人瞩目的成果。然而,如何有效融合这些算子以构建高性能的混合视觉网络,仍然是一个尚未解决的挑战。本文提出了一种新颖的统一架构搜索方法,旨在实现卷积、Transformer 与 MLP 三类算子的可学习组合。该方法包含两项关键设计,以实现高性能网络的高效搜索。首先,我们以统一的形式建模差异显著的可搜索算子,使各类算子能够通过相同的配置参数集进行表征。这一设计显著缩小了整体搜索空间的规模,使得搜索成本变得可承受。其次,我们提出了上下文感知的下采样模块(Context-Aware Downsampling Modules, DSMs),用以缓解不同算子类型之间的性能差距。所提出的 DSMs 能够更有效地适应来自不同算子的特征表示,这对于识别高性能混合架构至关重要。最终,我们将可配置算子与 DSMs 集成至统一的搜索空间中,并采用基于强化学习的搜索算法,全面探索各类算子的最优组合。基于此,我们搜索得到一个基础网络,并通过扩展生成一系列模型,统称为 UniNets。该系列模型在准确率与效率方面均显著优于以往的 ConvNet 与 Transformer 架构。具体而言,我们的 UniNet-B5 在 ImageNet 数据集上达到 84.9% 的 top-1 准确率,分别比 EfficientNet-B7 和 BoTNet-T7 提升显著,且计算量(FLOPs)分别减少 44% 和 55%。在 ImageNet-21K 上进行预训练后,UniNet-B6 的准确率达到 87.4%,超越 Swin-L,同时减少 51% 的 FLOPs 与 41% 的参数量。相关代码已开源,地址为:https://github.com/Sense-X/UniNet


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供