
我们提出了一种聚焦调制网络(FocalNets,简称FocalNets),其中自注意力机制(Self-Attention, SA)被完全替换为一种聚焦调制机制,用于建模视觉任务中的标记(token)间交互。该聚焦调制机制包含三个核心组件:(i) 分层上下文建模,通过堆叠深度可分离卷积层实现,用于从短距离到长距离逐步编码视觉上下文;(ii) 门控聚合,根据每个查询标记的内容,有选择性地聚合相关上下文信息;(iii) 元素级调制或仿射变换,将聚合后的上下文信息注入到查询标记中。大量实验表明,在图像分类、目标检测和语义分割等任务上,FocalNets在计算成本与当前最先进的自注意力模型(如Swin Transformer和Focal Transformer)相当的情况下,性能显著优于后者。具体而言,FocalNets在Tiny和Base两种规模下,在ImageNet-1K数据集上分别取得了82.3%和83.9%的Top-1准确率。在使用224×224分辨率在ImageNet-22K上预训练后,分别在224和384分辨率下微调时,Top-1准确率提升至86.5%和87.3%。在下游任务迁移中,FocalNets展现出明显优势:在Mask R-CNN框架下的目标检测任务中,使用1×训练策略的FocalNet Base模型相比Swin模型高出2.1个百分点(49.0 vs. 48.5),甚至超过了采用3×训练策略的Swin模型;在UPerNet框架下的语义分割任务中,FocalNet Base在单尺度设置下比Swin高出2.4个点,多尺度设置下也以50.5 vs. 49.7的成绩领先。进一步地,结合大型FocalNet与Mask2Former,我们在ADE20K语义分割任务上达到58.5 mIoU;在COCO全景分割任务上取得57.9 PQ。使用超大规模FocalNet与DINO框架,我们在COCO minival和test-dev测试集上分别达到64.3和64.4 mAP,超越了包括Swinv2-G和BEIT-3在内的更大规模基于注意力机制的模型,刷新了当前最先进(SoTA)性能纪录。代码与模型权重已开源,详见:https://github.com/microsoft/FocalNet。