8 个月前

Rui-Yang Ju Ting-Yu Lin Jen-Shiun Chiang Jia-Hao Jian Yu-Shian Lin Liu-Rui-Yi Huang

摘要

得益于Transformer在自然语言处理领域的显著成就，其编码器-解码器结构与注意力机制已被广泛引入计算机视觉领域。近年来，在图像分类、目标检测、语义分割等多个计算机视觉任务中，当前最先进的卷积神经网络开始借鉴Transformer的相关思想，这一趋势充分表明Transformer在图像识别领域具有广阔的发展前景。自视觉Transformer（Vision Transformer, ViT）提出以来，越来越多的研究工作开始尝试完全用自注意力机制替代传统的卷积层。本文基于Vision Transformer架构，结合金字塔结构，引入Split-transform-merge机制，提出一种分组编码器（group encoder），并构建了名为聚合金字塔视觉Transformer（Aggregated Pyramid Vision Transformer, APVT）的网络架构。我们在CIFAR-10数据集上开展图像分类任务，在COCO 2017数据集上进行目标检测任务。实验结果表明，相较于其他以Transformer作为主干网络的模型，APVT在保持优异性能的同时，显著降低了计算成本。我们期望这一改进策略能为未来计算机视觉领域中Transformer架构的研究提供有益参考。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Rui-Yang Ju Ting-Yu Lin Jen-Shiun Chiang Jia-Hao Jian Yu-Shian Lin Liu-Rui-Yi Huang

摘要

得益于Transformer在自然语言处理领域的显著成就，其编码器-解码器结构与注意力机制已被广泛引入计算机视觉领域。近年来，在图像分类、目标检测、语义分割等多个计算机视觉任务中，当前最先进的卷积神经网络开始借鉴Transformer的相关思想，这一趋势充分表明Transformer在图像识别领域具有广阔的发展前景。自视觉Transformer（Vision Transformer, ViT）提出以来，越来越多的研究工作开始尝试完全用自注意力机制替代传统的卷积层。本文基于Vision Transformer架构，结合金字塔结构，引入Split-transform-merge机制，提出一种分组编码器（group encoder），并构建了名为聚合金字塔视觉Transformer（Aggregated Pyramid Vision Transformer, APVT）的网络架构。我们在CIFAR-10数据集上开展图像分类任务，在COCO 2017数据集上进行目标检测任务。实验结果表明，相较于其他以Transformer作为主干网络的模型，APVT在保持优异性能的同时，显著降低了计算成本。我们期望这一改进策略能为未来计算机视觉领域中Transformer架构的研究提供有益参考。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供