Un CNN à fusion tardive pour le matting numérique

Cet article étudie la structure d’un réseau neuronal convolutif profond afin de prédire le masque alpha du premier plan à partir d’une seule image RGB en entrée. Notre réseau est entièrement convolutif et comporte deux branches décodeurs, respectivement dédiées à la classification du premier plan et du fond. Une troisième branche de fusion est ensuite utilisée pour intégrer les résultats des deux classifications, produisant ainsi des valeurs alpha correspondant à un résultat de segmentation douce. Ce design offre au réseau un degré de liberté supplémentaire par rapport à une seule branche décodeur, permettant d’obtenir des valeurs alpha de meilleure qualité durant l’entraînement. Le réseau est capable de générer implicitement des trimaps sans intervention utilisateur, ce qui le rend facile à utiliser pour les débutants n’ayant pas d’expertise en matting numérique. Les résultats expérimentaux démontrent que notre réseau parvient à produire des masques alpha de haute qualité pour divers types d’objets, et surpasser les méthodes d’image matting basées sur les réseaux de neurones convolutifs les plus avancées dans la tâche de matting d’images humaines.