HyperAIHyperAI

Command Palette

Search for a command to run...

Vision GNN:一枚の画像はノードのグラフに値する

Kai Han Yunhe Wang Jianyuan Guo Yehui Tang Enhua Wu

概要

深層学習に基づくコンピュータビジョンシステムにおいて、ネットワークアーキテクチャは重要な役割を果たす。広く用いられている畳み込みニューラルネットワーク(CNN)およびトランスフォーマーは、画像をグリッド構造またはシーケンス構造として扱うが、不規則で複雑な物体を柔軟に捉えるには限界がある。本論文では、画像をグラフ構造として表現する手法を提案し、視覚タスクに適したグラフレベルの特徴抽出を可能にする新しいビジョンGNN(ViG)アーキテクチャを導入する。まず、画像を多数のパッチに分割し、それらをノードとして扱い、最近隣のノード同士を接続することでグラフを構築する。この画像のグラフ表現を基に、すべてのノード間で情報の変換と交換を行うViGモデルを構築する。ViGは、グラフ情報の集約と更新にグラフ畳み込みを用いる「Grapherモジュール」と、2つの線形層で構成されるノード特徴変換を行う「FFNモジュール」の2つの基本モジュールから構成される。異なるモデルサイズに対応する、等方的(isotropic)およびピラミッド型のViGアーキテクチャが構築された。画像認識および物体検出タスクにおける広範な実験により、本研究で提案するViGアーキテクチャの優位性が実証された。本研究は、一般視覚タスクにおけるGNNの先駆的な取り組みとして、今後の研究に有用なインスピレーションと経験を提供することを期待する。PyTorch実装コードは https://github.com/huawei-noah/Efficient-AI-Backbones にて公開されており、MindSpore実装コードは https://gitee.com/mindspore/models で入手可能である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Vision GNN:一枚の画像はノードのグラフに値する | 記事 | HyperAI超神経