HyperAI超神经
Back to Headlines

ConvNeXt:挑战ViT的CNN新架构,如何实现超越Swin-T的性能?

3 months ago

近年来,随着Vision Transformer (ViT) 的出现,许多人开始认为传统的卷积神经网络 (CNN) 已经过时。然而,Meta公司的研究人员对此提出了质疑。他们在2022年的论文《20年代的卷积网络》中提出了一种新的模型—ConvNeXt,该模型通过调整传统ResNet的配置参数,不仅超过了ViT的性能,还证明了CNN的有效性和潜力。 在研究过程中,Meta的研究人员通过对ResNet模型进行超参数调优,实验了五个方面的改进:宏设计(宏观结构调整)、ResNeXt化(引入分组卷积)、倒置瓶颈结构、大核卷积以及微设计(网络细节调整)。这些改进的目标是为了将CNN的性能提升到与基于Transformer的模型相媲美的水平,甚至超过后者。 首先,他们在宏观设计上调整了ResNet各阶段的模块比例,由原来的3:4:6:3调整为1:1:3:1,这一改变使得模型的准确率从78.8%提高到了79.4%。接着,他们修改了初始卷积层的核尺寸和步长,使其能够处理类似非重叠块的数据输入,这也稍微提高了准确率到79.5%。 其次,在ResNeXt化过程中,研究人员采用了深度分离卷积来替代传统的ResNet中的组卷积,这虽然降低了计算复杂度,但也导致准确率降至78.3%。为了弥补这一点,他们扩展了网络宽度,增加通道数,这一改变显著提升了模型的准确率至80.5%。 第三,研究团队引入了倒置瓶颈结构,即“窄-宽-窄”的模式。这种结构使得模型的准确率进一步提升到80.6%。接下来,他们尝试了不同大小的卷积核,发现7×7的卷积核在较低的计算复杂度下表现最佳,再次将准确率稳定在80.6%。 最后,在微设计方面,研究人员替换了ReLU激活函数,使用GELU,并减少了激活函数的数量,这使得模型的准确率达到81.3%。此外,他们调整了批归一化层的位置,改为仅在第一个逐点卷积层之前放置,进一步提高了准确率到81.4%。最终,通过添加额外的层归一化层,模型的准确率达到了82.0%,超越了Swin-T架构,而计算复杂度保持不变。 为了验证这些理论,研究人员还开发了ConvNeXt的实现代码。整个ConvNeXt架构包括了一个初始的卷积层(称为stem),四个主要的网络阶段(res2、res3、res4、res5),以及一个全连接层。在每个主要阶段之间,都有一个专门的过渡块(ConvNeXtBlockTransition),用于处理图像尺寸的减半和通道数的翻倍。这些过渡块包含了深度卷积、层归一化、逐点卷积和GELU激活函数,确保了模型的结构和性能。 整个ConvNeXt模型的成功在于其对传统ResNet的巧妙调整和优化。通过一系列的超参数调优,ConvNeXt能够在保留CNN特点的同时,实现与现代Transformer相当甚至更好的性能。研究人员还提供了详细的教学代码,帮助初学者理解并实现这一模型。 业内人士对ConvNeXt的评价普遍积极。他们认为这一模型不仅证实了CNN在当今视觉任务中的竞争力,还为未来的研究方向提供了新的思路。Meta作为领先的科技巨头,一直在推动AI领域的发展,ConvNeXt就是他们创新的又一例证。此外,Meta开放源代码的做法也受到广泛赞誉,有助于促进学术界和工业界的交流合作。

Related Links

Towards Data Science