HyperAIHyperAI

Command Palette

Search for a command to run...

GraPix : Exploration de l'optimisation de la modularité des graphes pour le regroupement non supervisé des pixels

Rashmi Dutta Baruah Arijit Sur Sonal Kumar

Résumé

Un transformateur de vision apprend des embeddings de patch de haute qualité durant l’entraînement auto-supervisé, ce qui joue un rôle crucial dans de nombreuses tâches supervisées non supervisées ultérieures telles que la localisation d’objets, la détection d’objets et la segmentation sémantique creuse. Ces tâches ultérieures exploitent diverses propriétés du graphe d’affinité entre patchs afin d’atteindre des performances de pointe dans un cadre non supervisé. Toutefois, le potentiel réel du graphe d’affinité entre patchs n’a pas encore été pleinement exploité pour la tâche de segmentation sémantique dense. Les travaux existants montrent que la modularité est une propriété essentielle d’un graphe, reflétant la solidité des partitions existantes. Nous affirmons que l’optimisation conjointe du regroupement de caractéristiques dans l’espace des embeddings de patchs et de la modularité du graphe dans l’espace des attributs des nœuds conduit à une convergence d’entraînement plus lisse et à de meilleurs résultats. Dans cet article, nous proposons une nouvelle méthode d’apprentissage non supervisé en boucle complète, appelée GraPix, qui exploite une propriété cachée des embeddings de patchs extraits à partir d’un transformateur de vision auto-supervisé pour la tâche de segmentation sémantique dense. GraPix construit un graphe d’affinité basé sur les similarités entre patchs dans leur espace d’embeddings. Ensuite, il apprend des embeddings centraux hautement discriminants pour la segmentation sémantique dense grâce à notre nouvelle fonction objectif d’optimisation conjointe du regroupement de caractéristiques et de la modularité du graphe. Les résultats expérimentaux montrent que GraPix surpassent la méthode de pointe sur le jeu de données SUIM et atteignent la deuxième meilleure performance sur le jeu de données Cityscapes. Par ailleurs, nous menons une analyse ablation détaillée pour justifier le choix des composants du modèle et des hyperparamètres. Le code est disponible à l’adresse suivante : https://github.com/SonalKumar95/GraPix.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp