Matage d'images profondes

Le découpage d'image (image matting) est un problème fondamental en vision par ordinateur et possède de nombreuses applications. Les algorithmes précédents présentent de mauvaises performances lorsque l'image comporte des couleurs similaires pour le premier plan et l'arrière-plan ou des textures complexes. Les principales raisons sont que les méthodes antérieures 1) n'utilisent que des caractéristiques de bas niveau et 2) manquent de contexte de haut niveau. Dans cet article, nous proposons un nouvel algorithme basé sur l'apprentissage profond capable de résoudre ces deux problèmes. Notre modèle profond se compose de deux parties. La première partie est un réseau neuronal convolutif encodeur-décodeur profond qui prend en entrée une image et la carte trimap correspondante, et prédit le masque alpha de l'image. La deuxième partie est un petit réseau neuronal convolutif qui affine les prédictions du masque alpha du premier réseau pour obtenir des valeurs alpha plus précises et des contours plus nets. De plus, nous avons créé un ensemble de données à grande échelle pour le découpage d'image comprenant 49 300 images d'entraînement et 1 000 images de test. Nous évaluons notre algorithme sur le banc d'essai de découpage d'image, notre ensemble de test, ainsi qu'une vaste variété d'images réelles. Les résultats expérimentaux démontrent clairement la supériorité de notre algorithme par rapport aux méthodes précédentes.