Matting de fond : Le monde est votre écran vert

Nous proposons une méthode pour obtenir une matte — c’est-à-dire la couleur du fond devant chaque pixel et son alpha — d’une personne, en prenant des photos ou des vidéos dans un environnement quotidien à l’aide d’un appareil photo portable. La plupart des méthodes existantes de matting nécessitent un fond vert ou une trimap manuellement créée afin de produire une matte de qualité. Des méthodes automatiques, sans trimap, émergent progressivement, mais leur qualité reste inférieure à celle des approches traditionnelles. Dans notre approche sans trimap, nous demandons à l’utilisateur de prendre une photo supplémentaire du fond, sans le sujet, au moment de la capture. Cette étape exige une légère anticipation de la part de l’utilisateur, mais elle est bien moins chronophage que la création manuelle d’une trimap. Nous entraînons un réseau profond avec une perte adversaire afin de prédire la matte. Nous commençons par entraîner un réseau de matting à l’aide d’une perte supervisée sur des données de référence composées de manière synthétique. Pour combler l’écart de domaine entre les images synthétiques et les images réelles non étiquetées, nous entraînons un second réseau de matting guidé par le premier réseau et par un discriminateur chargé d’évaluer la qualité des compositions. Nous présentons des résultats sur une large variété de photos et vidéos, et démontrons une amélioration significative par rapport à l’état de l’art.