Ponctuant le Composite et le Réel : Vers un Matting d'Image Profond End-to-End

Extraire des plans avant précis à partir d’images naturelles bénéficie de nombreuses applications en aval, telles que la production cinématographique et la réalité augmentée. Toutefois, les caractéristiques velues et les apparences variées des plans avant — par exemple, les animaux ou les portraits — posent des défis aux méthodes actuelles de matting, qui nécessitent généralement des entrées utilisateur supplémentaires, telles qu’un trimap ou des traits manuels. Pour résoudre ces problèmes, nous étudions les rôles distincts des sémantiques et des détails dans le matting d’images, et décomposons la tâche en deux sous-tâches parallèles : une segmentation sémantique de haut niveau et un matting détaillé de bas niveau. Plus précisément, nous proposons un nouveau réseau de matting Glance and Focus (GFM), qui utilise un encodeur partagé et deux décodeurs indépendants pour apprendre ces deux tâches de manière collaborative, afin d’atteindre un matting d’images naturelles en bout à bout. En outre, en raison de la limitation du nombre d’images naturelles disponibles pour le matting, les méthodes précédentes recourent habituellement à des images composées pour l’entraînement et l’évaluation, ce qui limite leur capacité de généralisation sur les images du monde réel. Dans cet article, nous analysons systématiquement le problème d’écart de domaine entre les images composées et les images du monde réel, en menant des analyses approfondies des diverses disparités entre les images de plan avant et de plan arrière. Nous constatons qu’un processus de composition soigneusement conçu, appelé RSSN, visant à réduire ces disparités, permet d’obtenir un modèle avec une capacité de généralisation remarquable. En outre, nous proposons une base de données de référence comprenant 2 000 images haute résolution d’animaux du monde réel et 10 000 images de portraits, accompagnées de masques alpha manuellement annotés, afin de servir de terrain d’évaluation pour la capacité de généralisation des modèles de matting sur des images du monde réel. Des études empiriques approfondies démontrent que GFM surpasser les méthodes de pointe et réduit efficacement l’erreur de généralisation. Le code source et les jeux de données seront publiés à l’adresse suivante : https://github.com/JizhiziLi/GFM.