HyperAIHyperAI

Command Palette

Search for a command to run...

视觉图神经网络:一张图像胜过一图节点

Kai Han Yunhe Wang Jianyuan Guo Yehui Tang Enhua Wu

摘要

网络架构在基于深度学习的计算机视觉系统中起着关键作用。当前广泛使用的卷积神经网络(CNN)和Transformer通常将图像视为规则的网格或序列结构,难以灵活地捕捉不规则且复杂的视觉对象。本文提出将图像表示为图结构,并引入一种新型视觉图神经网络(Vision GNN,简称ViG)架构,用于提取图像级别的特征以应对各类视觉任务。我们首先将图像划分为多个图像块(patches),并将这些图像块视为图中的节点,通过连接最近邻节点构建图结构。基于图像的图表示,我们构建了ViG模型,实现节点间的信息传递与交互。ViG由两个基本模块组成:Grapher模块,采用图卷积操作对图信息进行聚合与更新;FFN模块,由两个线性层构成,用于节点特征的变换。我们进一步设计了具有不同模型规模的各向同性(isotropic)与金字塔(pyramid)型ViG架构。在图像识别与目标检测任务上的大量实验结果表明,所提出的ViG架构具有显著优势。我们期望这项关于图神经网络在通用视觉任务中应用的开创性研究,能为后续相关领域的探索提供有益的启发与实践经验。PyTorch实现代码已开源至:https://github.com/huawei-noah/Efficient-AI-Backbones;MindSpore版本代码可于:https://gitee.com/mindspore/models 获取。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供