Inférence Rapide, Exacte et Multi-Échelle pour la Segmentation Sémantique d'Images avec des CRFs Gaussiens Profonds

Dans cette étude, nous proposons une technique de prédiction structurée qui combine les avantages des Champs Aléatoires Conditionnels Gaussiens (G-CRF) avec l'Apprentissage Profond : (a) notre tâche de prédiction structurée possède un optimum global unique qui est obtenu exactement à partir de la solution d'un système linéaire ; (b) les gradients de nos paramètres de modèle sont calculés analytiquement en utilisant des expressions sous forme fermée, contrairement aux approches contemporaines de prédiction structurée profonde qui reposent sur la rétropropagation dans le temps et nécessitent une grande quantité de mémoire ; (c) nos termes par paires n'ont pas besoin d'être des expressions simples conçues manuellement, comme dans les travaux s'appuyant sur le DenseCRF, mais peuvent plutôt être « découverts » à partir des données grâce à des architectures profondes ; (d) notre système peut être entraîné de manière end-to-end.En nous appuyant sur des outils standards de l'analyse numérique, nous développons des algorithmes très efficaces pour l'inférence et l'apprentissage, ainsi qu'une technique personnalisée adaptée à la tâche de segmentation sémantique. Cette efficacité nous permet d'explorer des architectures plus sophistiquées pour la prédiction structurée en apprentissage profond : nous introduisons des architectures multi-résolution pour coupler les informations à travers différentes échelles dans un cadre d'optimisation conjointe, ce qui conduit à des améliorations systématiques. Nous démontrons l'utilité de notre approche sur le benchmark difficile de segmentation d'images VOC PASCAL 2012, montrant des améliorations substantielles par rapport à des baselines solides. Nous mettons tout notre code et nos expériences disponibles sur {https://github.com/siddharthachandra/gcrf}.