Command Palette
Search for a command to run...
将您的卷积核扩展至31×31:重新审视CNN中的大卷积核设计
将您的卷积核扩展至31×31:重新审视CNN中的大卷积核设计
Xiaohan Ding Xiangyu Zhang Yizhuang Zhou Jungong Han Guiguang Ding Jian Sun
摘要
我们重新审视了现代卷积神经网络(CNN)中的大卷积核设计问题。受视觉Transformer(ViT)近期进展的启发,本文表明,使用少数几个大卷积核替代传统堆叠的小卷积核,可能是一种更具优势的网络设计范式。为此,我们提出了五项设计准则,例如采用重参数化的大尺寸深度可分离卷积,以指导高效且高性能的大核CNN架构设计。遵循这些准则,我们提出了RepLKNet——一种纯CNN架构,其卷积核尺寸高达31×31,远大于当前普遍采用的3×3核。与ViT相比,RepLKNet显著缩小了CNN与ViT之间的性能差距:在ImageNet分类任务及多个典型下游任务上,RepLKNet实现了与Swin Transformer相当甚至更优的性能,同时具有更低的延迟。此外,RepLKNet在大规模数据和大模型场景下展现出良好的可扩展性,在ImageNet上达到87.8%的Top-1准确率,在ADE20K语义分割任务上取得56.0%的mIoU,其性能在同类规模的当前最先进模型中具有很强竞争力。我们的研究还进一步揭示,与小核CNN相比,大核CNN具有显著更大的有效感受野,以及更强的形状偏好(shape bias),而非纹理偏好(texture bias)。代码与模型详见:https://github.com/megvii-research/RepLKNet。