Deep Matting Automatique d'Images Naturelles Parfaites

Le matting automatique d’images (AIM) consiste à estimer le fond doux à partir d’une image naturelle arbitraire, sans aucune entrée auxiliaire telle qu’un trimap, ce qui est particulièrement utile pour le traitement d’images. Les méthodes antérieures cherchent à apprendre des caractéristiques sémantiques afin d’aider le processus de matting, mais elles sont limitées aux images présentant un fond saillant et opaque, comme les humains ou les animaux. Dans cet article, nous examinons les difficultés rencontrées lors de l’extension de ces approches aux images naturelles comportant des fonds transparents ou détaillés, ou encore des fonds non saillants. Pour résoudre ce problème, nous proposons un nouveau réseau de matting end-to-end capable de prédire un trimap généralisé pour toute image de ces catégories, sous la forme d’une représentation sémantique unifiée. Parallèlement, les caractéristiques sémantiques apprises guident le réseau de matting pour se concentrer sur les zones de transition grâce à un mécanisme d’attention. Nous avons également construit un ensemble de tests appelé AIM-500, comprenant 500 images naturelles diversifiées couvrant toutes ces catégories, accompagnées de masques alpha manuellement annotés, permettant ainsi d’évaluer de manière fiable la capacité de généralisation des modèles AIM. Les résultats expérimentaux démontrent que notre réseau, entraîné sur les jeux de données disponibles de matting composites, surpassent les méthodes existantes à la fois de manière objective et subjective. Le code source et le jeu de données sont disponibles à l’adresse suivante : https://github.com/JizhiziLi/AIM.