17 天前
SAG-ViT:一种面向视觉Transformer的尺度感知高保真分块方法与图注意力机制
Shravan Venkatraman, Jaskaran Singh Walia, Joe Dhanith P R

摘要
视觉Transformer(Vision Transformers, ViTs)通过引入自注意力机制,有效捕捉图像块之间的复杂模式与长距离依赖关系,重新定义了图像分类任务。然而,ViTs面临的一个关键挑战是如何高效地融合多尺度特征表示,而这种能力在卷积神经网络(CNNs)中得益于其分层结构天然具备。尽管图Transformer在该问题上已取得一定进展,通过基于图的建模方式加以改进,但其往往难以充分保留空间层次结构,尤其当冗余或不相关区域导致图像上下文表示被稀释时,这一问题更为突出。为弥合这一差距,我们提出SAG-ViT——一种具备尺度感知能力的图注意力视觉Transformer。该模型融合了CNN的多尺度特征提取能力、ViT的强大表征能力,以及图注意力机制驱动的图像块建模,从而实现更丰富的上下文表达。具体而言,以EfficientNetV2作为主干网络,模型首先提取多尺度特征图,并将这些特征图划分为图像块,相较于直接对原始输入图像进行分块,该方式能够更好地保留语义信息。随后,基于空间位置与特征相似性,将这些图像块构建成图结构,利用图注意力网络(Graph Attention Network, GAT)对节点嵌入进行优化与更新。最终,经过优化的图结构表示输入至Transformer编码器中,以捕捉长距离依赖关系及复杂的特征交互。我们在多个领域内的基准数据集上对SAG-ViT进行了评估,验证了其在提升图像分类性能方面的有效性。相关代码与预训练权重已开源,地址为:https://github.com/shravan-18/SAG-ViT。