6 个月前

计算机视觉

计算机视觉

Chang Xu Yunhe Wang Yehui Tang Minjing Dong Xinghao Chen Yanxi Li

摘要

近年来，全由多层感知机（MLP）构成的神经网络架构在计算机视觉领域引起了广泛关注。然而，这类MLP类视觉模型在空间与通道维度间的信息混合效率较低，导致其需要在大规模数据集上进行昂贵的预训练才能达到良好性能。本文从一种新颖的知识蒸馏视角出发，提出了一种名为空间-通道令牌蒸馏（Spatial-channel Token Distillation, STD）的新方法。该方法通过在空间和通道两个维度上分别引入蒸馏令牌（distillation tokens），有效提升了跨维度的信息融合能力。为进一步增强蒸馏令牌在各自维度上的专注性并最大化性能提升，本文还引入了互信息正则化机制。在ImageNet数据集上对多种MLP类架构的大量实验表明，所提出的令牌蒸馏机制能够显著提升模型精度。例如，在不依赖JFT-300M大规模预训练的情况下，STD将Mixer-S16在ImageNet上的Top-1准确率从73.8%提升至75.7%。当应用于更强的架构（如CycleMLP-B1和CycleMLP-B2）时，STD仍分别带来了约1.1%和0.5%的准确率提升。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Chang Xu Yunhe Wang Yehui Tang Minjing Dong Xinghao Chen Yanxi Li

摘要

近年来，全由多层感知机（MLP）构成的神经网络架构在计算机视觉领域引起了广泛关注。然而，这类MLP类视觉模型在空间与通道维度间的信息混合效率较低，导致其需要在大规模数据集上进行昂贵的预训练才能达到良好性能。本文从一种新颖的知识蒸馏视角出发，提出了一种名为空间-通道令牌蒸馏（Spatial-channel Token Distillation, STD）的新方法。该方法通过在空间和通道两个维度上分别引入蒸馏令牌（distillation tokens），有效提升了跨维度的信息融合能力。为进一步增强蒸馏令牌在各自维度上的专注性并最大化性能提升，本文还引入了互信息正则化机制。在ImageNet数据集上对多种MLP类架构的大量实验表明，所提出的令牌蒸馏机制能够显著提升模型精度。例如，在不依赖JFT-300M大规模预训练的情况下，STD将Mixer-S16在ImageNet上的Top-1准确率从73.8%提升至75.7%。当应用于更强的架构（如CycleMLP-B1和CycleMLP-B2）时，STD仍分别带来了约1.1%和0.5%的准确率提升。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供