HyperAIHyperAI

Command Palette

Search for a command to run...

Segmentation sémantique faiblement supervisée avec apprentissage des mots visuels et pooling hybride

Lixiang Ru Bo Du Yibing Zhan Chen Wu

Résumé

Les méthodes de segmentation sémantique faiblement supervisée (WSSS) basées sur des étiquettes au niveau d’image entraînent généralement un réseau de classification afin de générer des cartes d’activation de classe (CAMs), utilisées comme étiquettes initiales de segmentation grossière. Toutefois, les méthodes WSSS actuelles restent loin d’être satisfaisantes, principalement en raison de deux limitations des CAMs qu’elles utilisent : 1) elles se concentrent généralement sur des régions partielles discriminantes de l’objet, et 2) elles contiennent souvent des régions de fond inutiles. Ces deux problèmes proviennent de la seule supervision au niveau d’image et de l’agrégation d’informations globales lors de l’entraînement du réseau de classification. Dans ce travail, nous proposons un module d’apprentissage des mots visuels et une approche hybride de pooling, que nous intégrons dans le réseau de classification afin de réduire ces limitations. Dans le module d’apprentissage des mots visuels, nous attaquons le premier problème en forçant le réseau de classification à apprendre des étiquettes de mots visuels à fine-grain, permettant ainsi de découvrir une étendue plus complète de l’objet. Plus précisément, les mots visuels sont appris à l’aide d’un dictionnaire (codebook), qui peut être mis à jour grâce à deux stratégies proposées : une stratégie fondée sur l’apprentissage et une stratégie basée sur une mémoire (memory-bank). Le second inconvénient des CAMs est atténué grâce au pooling hybride proposé, qui combine à la fois l’information moyenne globale et l’information locale discriminante, garantissant ainsi à la fois l’intégralité de l’objet et la réduction des régions de fond. Nous avons évalué notre méthode sur les jeux de données PASCAL VOC 2012 et MS COCO 2014. Sans aucun prérequis de saliency supplémentaire, notre approche atteint respectivement 70,6 % et 70,7 % de mIoU sur les ensembles de validation et de test du jeu de données PASCAL VOC, ainsi que 36,2 % de mIoU sur l’ensemble de validation de MS COCO, dépassant significativement les performances des méthodes WSSS les plus avancées de l’état de l’art.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp