
摘要
我们提出了一种新的计算机视觉神经架构——WaveMix——该架构资源高效且具有广泛的泛化能力和可扩展性。尽管使用了较少的可训练参数、GPU内存和计算量,WaveMix网络在多个任务上仍能达到与当前最先进的卷积神经网络、视觉变换器和标记混合器相当或更好的精度。这种效率可以转化为时间、成本和能源的节省。为了实现这些优势,我们在WaveMix块中采用了多级二维离散小波变换(2D-DWT),其优点如下:(1) 它根据三个强大的图像先验——尺度不变性、平移不变性和边缘稀疏性——重新组织空间信息;(2) 以无损的方式进行,无需增加参数;(3) 同时减少特征图的空间尺寸,从而降低前向和反向传播所需的内存和时间;(4) 比卷积更快地扩大感受野。整个架构由一系列自相似且分辨率保持的WaveMix块堆叠而成,这为各种任务和不同级别的资源可用性提供了架构灵活性。WaveMix在Cityscapes数据集的分割任务上建立了新的基准;在Galaxy 10 DECals、Places-365、五个EMNIST数据集以及iNAT-mini上的分类任务中表现出色,并在其他基准测试中具有竞争力。我们的代码和预训练模型已公开发布。