8ヶ月前

概要

深層学習に基づくコンピュータビジョンシステムにおいて、ネットワークアーキテクチャは重要な役割を果たす。広く用いられている畳み込みニューラルネットワーク（CNN）およびトランスフォーマーは、画像をグリッド構造またはシーケンス構造として扱うが、不規則で複雑な物体を柔軟に捉えるには限界がある。本論文では、画像をグラフ構造として表現する手法を提案し、視覚タスクに適したグラフレベルの特徴抽出を可能にする新しいビジョンGNN（ViG）アーキテクチャを導入する。まず、画像を多数のパッチに分割し、それらをノードとして扱い、最近隣のノード同士を接続することでグラフを構築する。この画像のグラフ表現を基に、すべてのノード間で情報の変換と交換を行うViGモデルを構築する。ViGは、グラフ情報の集約と更新にグラフ畳み込みを用いる「Grapherモジュール」と、2つの線形層で構成されるノード特徴変換を行う「FFNモジュール」の2つの基本モジュールから構成される。異なるモデルサイズに対応する、等方的（isotropic）およびピラミッド型のViGアーキテクチャが構築された。画像認識および物体検出タスクにおける広範な実験により、本研究で提案するViGアーキテクチャの優位性が実証された。本研究は、一般視覚タスクにおけるGNNの先駆的な取り組みとして、今後の研究に有用なインスピレーションと経験を提供することを期待する。PyTorch実装コードは https://github.com/huawei-noah/Efficient-AI-Backbones にて公開されており、MindSpore実装コードは https://gitee.com/mindspore/models で入手可能である。

ソースPDF