Amélioration du masquage sémantique humain avec des annotations grossières

La matting sémantique humaine vise à estimer l’opacité par pixel des régions du premier plan correspondant à des êtres humains. Ce problème est particulièrement difficile et nécessite généralement des trimaps interactives fournies par l’utilisateur ainsi que de grandes quantités de données annotées de haute qualité. L’annotation de telles données est très laborieuse et exige des compétences spécifiques allant au-delà de celles d’un utilisateur ordinaire, en particulier lorsqu’il s’agit de détails fins comme les cheveux. À l’inverse, les jeux de données humains annotés de manière grossière sont beaucoup plus faciles à obtenir et à collecter à partir de jeux de données publics. Dans cet article, nous proposons d’utiliser conjointement des données annotées de manière grossière et des données annotées de manière fine afin d’améliorer la matting sémantique humaine en boucle complète, sans nécessiter de trimaps en entrée supplémentaire. Plus précisément, nous entraînons un réseau de prédiction de masque pour estimer un masque sémantique grossier à partir de données hybrides, puis introduisons un réseau d’unification de qualité pour uniformiser la qualité des sorties de masques grossiers précédemment prédits. Un réseau de raffinement de matting prend en entrée le masque unifié et l’image d’origine afin de prédire le masque alpha final. Le jeu de données grossièrement annoté que nous avons collecté enrichit significativement notre ensemble de données, permettant ainsi de générer des masques alpha de haute qualité pour des images réelles. Les résultats expérimentaux montrent que la méthode proposée atteint des performances comparables à celles des méthodes de pointe. En outre, la méthode peut être appliquée au raffinement de jeux de données publics annotés de manière grossière, ainsi qu’aux méthodes de segmentation sémantique, réduisant ainsi considérablement les coûts liés à l’annotation de données humaines de haute qualité.