8 个月前

卷积神经网络

计算机视觉

Zizheng Pan Bohan Zhuang† Jing Liu Haoyu He Jianfei Cai

摘要

最近提出的纯注意力机制的视觉图像变换器（ViT）在图像识别任务中，如图像分类，取得了令人鼓舞的性能。然而，当前的ViT模型在推理过程中通常会保持完整的补丁序列，这不仅冗余而且缺乏层次表示。为此，我们提出了一种分层视觉变换器（HVT），该变换器逐步汇聚视觉标记以缩短序列长度，从而减少计算成本，类似于卷积神经网络（CNNs）中的特征图下采样。这一改进带来的显著优势在于，我们可以通过扩展深度、宽度、分辨率或补丁大小来增加模型容量，而不会因序列长度的减少引入额外的计算复杂度。此外，我们通过实证研究发现，平均汇聚的视觉标记比单一类别标记包含更多的判别信息。为了展示我们HVT改进的可扩展性，我们在图像分类任务上进行了广泛的实验。在FLOPs相当的情况下，我们的HVT在ImageNet和CIFAR-100数据集上的表现优于竞争基线模型。代码可在https://github.com/MonashAI/HVT 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

卷积神经网络

计算机视觉

Zizheng Pan Bohan Zhuang† Jing Liu Haoyu He Jianfei Cai

摘要

最近提出的纯注意力机制的视觉图像变换器（ViT）在图像识别任务中，如图像分类，取得了令人鼓舞的性能。然而，当前的ViT模型在推理过程中通常会保持完整的补丁序列，这不仅冗余而且缺乏层次表示。为此，我们提出了一种分层视觉变换器（HVT），该变换器逐步汇聚视觉标记以缩短序列长度，从而减少计算成本，类似于卷积神经网络（CNNs）中的特征图下采样。这一改进带来的显著优势在于，我们可以通过扩展深度、宽度、分辨率或补丁大小来增加模型容量，而不会因序列长度的减少引入额外的计算复杂度。此外，我们通过实证研究发现，平均汇聚的视觉标记比单一类别标记包含更多的判别信息。为了展示我们HVT改进的可扩展性，我们在图像分类任务上进行了广泛的实验。在FLOPs相当的情况下，我们的HVT在ImageNet和CIFAR-100数据集上的表现优于竞争基线模型。代码可在https://github.com/MonashAI/HVT 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供