8 个月前

摘要

网络架构在基于深度学习的计算机视觉系统中起着关键作用。当前广泛使用的卷积神经网络（CNN）和Transformer通常将图像视为规则的网格或序列结构，难以灵活地捕捉不规则且复杂的视觉对象。本文提出将图像表示为图结构，并引入一种新型视觉图神经网络（Vision GNN，简称ViG）架构，用于提取图像级别的特征以应对各类视觉任务。我们首先将图像划分为多个图像块（patches），并将这些图像块视为图中的节点，通过连接最近邻节点构建图结构。基于图像的图表示，我们构建了ViG模型，实现节点间的信息传递与交互。ViG由两个基本模块组成：Grapher模块，采用图卷积操作对图信息进行聚合与更新；FFN模块，由两个线性层构成，用于节点特征的变换。我们进一步设计了具有不同模型规模的各向同性（isotropic）与金字塔（pyramid）型ViG架构。在图像识别与目标检测任务上的大量实验结果表明，所提出的ViG架构具有显著优势。我们期望这项关于图神经网络在通用视觉任务中应用的开创性研究，能为后续相关领域的探索提供有益的启发与实践经验。PyTorch实现代码已开源至：https://github.com/huawei-noah/Efficient-AI-Backbones；MindSpore版本代码可于：https://gitee.com/mindspore/models 获取。

源 PDF