17 天前
基于稀疏专家混合的视觉模型扩展
Carlos Riquelme, Joan Puigcerver, Basil Mustafa, Maxim Neumann, Rodolphe Jenatton, André Susano Pinto, Daniel Keysers, Neil Houlsby

摘要
稀疏门控的专家混合网络(Sparsely-gated Mixture of Experts, MoE)在自然语言处理领域已展现出卓越的可扩展性。然而,在计算机视觉领域,几乎所有的高性能网络仍采用“稠密”结构,即每个输入都经过所有参数的处理。本文提出了一种视觉专家混合网络(Vision MoE, V-MoE),这是一种稀疏化的视觉Transformer架构,具备良好的可扩展性,并在性能上可与当前最大的稠密网络相媲美。在图像识别任务中,V-MoE达到了与最先进网络相当的性能水平,同时在推理阶段所需的计算量可减少至其一半。此外,我们对路由算法进行了扩展,使其能够对整个批次中每个输入的子集进行优先级调度,从而实现自适应的每图像计算量调节。这一特性使V-MoE能够在测试阶段平滑地在性能与计算开销之间进行权衡。最后,我们展示了V-MoE在扩展视觉模型方面的巨大潜力,并成功训练了一个参数量达150亿的模型,在ImageNet数据集上取得了90.35%的准确率。