17 天前

UniRepLKNet:一种用于音频、视频、点云、时间序列和图像识别的通用感知大核卷积网络

Xiaohan Ding, Yiyuan Zhang, Yixiao Ge, Sijie Zhao, Lin Song, Xiangyu Yue, Ying Shan
UniRepLKNet:一种用于音频、视频、点云、时间序列和图像识别的通用感知大核卷积网络
摘要

近年来,大核卷积神经网络(Large-kernel ConvNets)受到广泛关注,但仍有两个尚未解决且至关重要的问题亟待深入研究:其一,现有大核ConvNet的架构设计主要沿袭传统ConvNet或Transformer的设计范式,而针对大核ConvNet本身的架构设计尚缺乏系统性探索;其二,尽管Transformer已在多模态任务中占据主导地位,但ConvNet是否同样具备在视觉领域之外的广泛感知能力,仍需进一步验证。本文从两个方面做出贡献:其一,我们提出了设计大核ConvNet的四项架构准则,其核心思想在于充分挖掘大核与小核的本质差异——即“以宽代深”,无需通过加深网络即可实现大范围感受野。遵循这些准则,所提出的大型核ConvNet在图像识别任务中展现出领先性能:在ImageNet上达到88.0%的准确率,在ADE20K上实现55.6%的mIoU,在COCO目标检测任务中达到56.4%的box AP,显著优于近期主流先进模型,兼具更高的性能与更快的推理速度。其二,我们发现大核是解锁ConvNet在非擅长领域卓越表现的关键。通过引入特定模态的预处理方法,所提出模型在时间序列预测与音频识别任务上均达到当前最优水平,且无需对网络架构进行针对特定模态的定制化设计。所有代码与模型均已公开发布于GitHub与Hugging Face平台,供学术界与工业界自由使用。