17 天前

UPANets：从通用像素注意力网络中学习

Ching-Hsun Tseng, Shin-Jye Lee, Jia-Nan Feng, Shengzhong Mao, Yu-Ping Wu, Jia-Yu Shang, Mou-Chung Tseng, Xiao-Jun Zeng

摘要

在图像分类任务中，基于跳跃连接（skip connection）和密集连接（dense connection）的网络结构长期占据各大排行榜的主导地位。近年来，随着自然语言处理领域中多头注意力机制（multi-head attention）的成功应用，业界普遍认为当前已进入非使用类似Transformer的模型，即采用卷积神经网络（CNN）与注意力机制相结合的混合架构的时代。然而，纯Transformer模型通常需要巨大的计算资源进行训练，而混合CNN与注意力机制的方案则在性能与效率之间达到了理想的平衡。为此，本文提出UPANets，该模型通过将通道注意力机制（channel-wise attention）与混合跳跃-密集连接结构相结合，使CNN能够更有效地捕捉全局与局部信息。此外，其特有的“极端连接”（extreme-connection）结构进一步增强了模型的鲁棒性，并带来了更平滑的损失曲面。实验结果表明，UPANets在Cifar-10上取得了96.47%的准确率，在Cifar-100上达到80.29%，在Tiny ImageNet上达到67.67%，显著超越了多数知名且广泛使用的先进模型（SOTA）。尤为重要的是，这些优异性能均以极高的参数效率实现，且仅需在单一客户定制GPU上进行训练。本文已将UPANets的实现代码开源，地址为：https://github.com/hanktseng131415go/UPANets。