HyperAIHyperAI

Command Palette

Search for a command to run...

DeepLab : Segmentation sémantique d'images avec des réseaux de neurones convolutifs profonds, la convolution atrous et les CRF pleinement connectés

Liang-Chieh Chen George Papandreou, Senior Member, IEEE Iasonas Kokkinos, Member, IEEE Kevin Murphy Alan L. Yuille, Fellow, IEEE

Résumé

Dans cette étude, nous abordons la tâche de segmentation sémantique d'images à l'aide de l'apprentissage profond (Deep Learning) et apportons trois contributions principales qui sont expérimentalement démontrées comme ayant une valeur pratique substantielle. Premièrement, nous mettons en lumière la convolution avec des filtres échantillonnés à un taux plus élevé, ou « convolution dilatée » (atrous convolution), comme un outil puissant dans les tâches de prédiction dense. La convolution dilatée nous permet de contrôler explicitement la résolution à laquelle les réponses des caractéristiques sont calculées au sein des Réseaux Neuronaux Convolutifs Profonds (DCNN). Elle permet également d'élargir efficacement le champ de vision des filtres pour intégrer un contexte plus large sans augmenter le nombre de paramètres ou la quantité de calcul. Deuxièmement, nous proposons la pyramide d'échantillonnage spatial dilatée (Atrous Spatial Pyramid Pooling, ASPP) pour segmenter robustement les objets à plusieurs échelles. L'ASPP explore une couche de caractéristiques convolutives entrante avec des filtres à différents taux d'échantillonnage et champs de vision effectifs, capturant ainsi les objets ainsi que le contexte de l'image à plusieurs échelles. Troisièmement, nous améliorons la localisation des contours des objets en combinant des méthodes issues des DCNN et des modèles graphiques probabilistes. La combinaison couramment utilisée du max-pooling et du sous-échantillonnage dans les DCNN atteint l'invariance mais a un impact négatif sur la précision de localisation. Nous surmontons ce problème en combinant les réponses au niveau final du DCNN avec un Champ Aléatoire Conditionnel (Conditional Random Field, CRF) entièrement connecté, ce qui est démontré qualitativement et quantitativement pour améliorer les performances de localisation. Notre système proposé « DeepLab » établit un nouveau standard dans la tâche de segmentation sémantique d'images PASCAL VOC-2012, atteignant 79,7 % de mIOU dans l'ensemble de test, et progresse également sur trois autres jeux de données : PASCAL-Context, PASCAL-Person-Part et Cityscapes. Tout notre code est rendu publiquement disponible en ligne.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp