6 个月前

摘要

Transformer是一种新型神经网络架构，通过注意力机制将输入数据编码为强大的特征表示。通常，视觉Transformer首先将输入图像划分为多个局部图像块（patches），随后分别计算这些图像块的特征及其相互关系。然而，自然图像具有高度复杂的结构，包含丰富的细节与色彩信息，现有的图像块划分粒度往往不足以充分挖掘不同尺度和位置上物体的特征。本文指出，局部图像块内部的注意力机制对于构建高性能视觉Transformer同样至关重要，并提出一种新型架构——Transformer in Transformer（TNT）。具体而言，我们将原始的局部图像块（如16×16）视为“视觉句子”，并进一步将其细分为更小的子块（如4×4），作为“视觉词汇”。在每个“视觉句子”内，对其中各个“视觉词汇”之间的注意力关系进行计算，该过程带来的计算开销可忽略不计。随后，融合“词汇”与“句子”级别的特征表示，以增强整体模型的表达能力。在多个基准数据集上的实验结果验证了所提TNT架构的有效性。例如，在ImageNet数据集上，TNT取得了81.5%的Top-1准确率，相比具有相近计算成本的当前最先进视觉Transformer，性能提升了约1.7%。相关PyTorch实现代码已开源至：https://github.com/huawei-noah/CV-Backbones；MindSpore版本代码可访问：https://gitee.com/mindspore/models/tree/master/research/cv/TNT。

源 PDF