HyperAIHyperAI

Command Palette

Search for a command to run...

Vision GNN : Une image vaut un graphe de nœuds

Kai Han Yunhe Wang Jianyuan Guo Yehui Tang Enhua Wu

Résumé

L'architecture de réseau joue un rôle fondamental dans les systèmes de vision par ordinateur basés sur l'apprentissage profond. Les réseaux de neurones convolutifs largement utilisés ainsi que les transformateurs traitent l'image comme une structure en grille ou en séquence, ce qui limite leur capacité à capturer efficacement des objets irréguliers et complexes. Dans cet article, nous proposons de représenter l'image sous forme de structure de graphe et introduisons une nouvelle architecture Vision GNN (ViG) pour extraire des caractéristiques au niveau du graphe dans le cadre de tâches visuelles. Nous commençons par découper l'image en un certain nombre de patches, considérés comme des nœuds, puis construisons un graphe en reliant les voisins les plus proches. À partir de cette représentation graphique des images, nous développons notre modèle ViG afin de permettre l'échange et la transformation d'informations entre tous les nœuds. Le modèle ViG repose sur deux modules fondamentaux : le module Grapher, basé sur une convolution de graphe pour agréger et mettre à jour les informations du graphe, et le module FFN, composé de deux couches linéaires pour transformer les caractéristiques des nœuds. Des architectures isotropes et pyramidales de ViG sont construites avec différentes tailles de modèle. Des expériences étendues sur des tâches de reconnaissance d'images et de détection d'objets démontrent l'avantage de notre architecture ViG. Nous espérons que cette étude pionnière sur l'application des réseaux de graphes aux tâches visuelles générales fournira une inspiration utile et une expérience précieuse pour les recherches futures. Le code PyTorch est disponible à l'adresse suivante : https://github.com/huawei-noah/Efficient-AI-Backbones, et le code MindSpore est accessible à : https://gitee.com/mindspore/models.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Vision GNN : Une image vaut un graphe de nœuds | Articles | HyperAI