Agrégation contextuelle double pour le matting d’image universel

Le matting d’images naturelles vise à estimer le matte alpha du premier plan à partir d’une image donnée. De nombreuses approches ont été explorées pour résoudre ce problème, telles que les méthodes interactives utilisant des indications comme des clics ou des trimaps, ou encore les méthodes automatiques spécifiquement conçues pour des objets particuliers. Toutefois, les méthodes existantes sont généralement conçues pour des objets ou des indications spécifiques, négligeant ainsi le besoin fondamental d’agréger à la fois les contextes globaux et locaux dans le cadre du matting d’images. En conséquence, ces approches rencontrent souvent des difficultés à identifier précisément le premier plan et à produire des frontières exactes, ce qui limite leur efficacité dans des scénarios imprévus. Dans cet article, nous proposons un cadre de matting simple et universel, nommé Dual-Context Aggregation Matting (DCAM), permettant un matting robuste avec une indication arbitraire ou sans indication. Plus précisément, DCAM utilise tout d’abord un réseau d’architecture sémantique pour extraire des caractéristiques de bas niveau ainsi que des caractéristiques contextuelles à partir de l’image d’entrée et de l’indication. Ensuite, nous introduisons un réseau d’agrégation à double contexte, intégrant des agrégateurs d’objets globaux et des agrégateurs d’apparence locale, afin de raffiner itérativement les caractéristiques contextuelles extraites. En effectuant simultanément une segmentation du contour global et un raffinement local des frontières, DCAM montre une robustesse accrue face à divers types d’indications et d’objets. Enfin, nous utilisons un décodeur de matting pour fusionner les caractéristiques de bas niveau avec les caractéristiques contextuelles raffinées afin d’estimer le matte alpha. Les résultats expérimentaux sur cinq jeux de données de matting montrent que le DCAM proposé surpassent les méthodes de pointe dans les tâches de matting automatique comme interactif, soulignant ainsi son fort degré d’universalité et sa haute performance. Le code source est disponible à l’adresse suivante : \url{https://github.com/Windaway/DCAM}.