17 天前

WaveMix-Lite:一种面向图像分析的资源高效神经网络

{Amit, Pranav; Sethi, Jeevan}
WaveMix-Lite:一种面向图像分析的资源高效神经网络
摘要

在图像分析任务中,神经网络泛化能力的提升往往伴随着参数量、网络层数、数据集规模、训练与测试计算开销以及GPU显存需求的显著增加。为此,我们提出一种新型网络架构——WaveMix-Lite,该架构在保持与当前主流Transformer和卷积神经网络(CNN)相当泛化能力的同时,显著降低了资源消耗。WaveMix-Lite采用二维离散小波变换(2D-discrete wavelet transform),高效融合像素间的空间信息。实验表明,WaveMix-Lite是一种具有高度通用性与可扩展性的架构框架,可直接应用于多种视觉任务(如图像分类与语义分割),而无需对结构进行大幅调整,这与Transformer和CNN形成鲜明对比。该模型仅需单个GPU即可完成训练,并在多个基准测试中达到或超越现有先进水平:在五个EMNIST数据集上取得当前最优准确率;在ImageNet-1K和Places-365数据集上均优于主流CNN与Transformer模型;在Cityscapes验证集上实现77%的mIoU(平均交并比),同时所用参数量不足同类CNN或Transformer的五分之一,GPU显存占用也仅为一半左右。我们的实验进一步揭示,尽管传统卷积层利用了图像的平移不变性(shift-invariance)特性,但引入新型网络层(如小波变换)可进一步挖掘图像的其他固有属性,例如尺度不变性(scale-invariance)以及物体在空间上的有限扩展性(finite spatial extents of objects),从而为高效视觉表征学习提供了新的范式。