Aggrégation hiérarchique de structure guidée par l'attention pour le matting d'image

Les algorithmes existants de matting basés sur le deep learning s'appuient principalement sur des caractéristiques sémantiques de haut niveau afin d'améliorer la structure globale des masques alpha. Toutefois, nous soutenons que les sémantiques avancées extraites à partir des réseaux de neurones convolutifs (CNN) n'apportent pas une contribution équitable à la perception du masque alpha, et que l'on devrait donc concilier ces informations sémantiques avancées avec des indices d'apparence de bas niveau afin de raffiner les détails du premier plan. Dans ce travail, nous proposons un réseau de matting hiérarchique à attention (HAttMatting), entièrement end-to-end, capable de prédire une structure améliorée du masque alpha à partir d'une seule image RGB sans nécessiter d'entrée supplémentaire. Plus précisément, nous utilisons une attention spatiale et une attention par canal pour intégrer de manière innovante les indices d'apparence et les caractéristiques pyramidales. Ce mécanisme d'attention combinée permet de percevoir les masques alpha à partir de frontières affinées et de sémantiques adaptatives. Nous introduisons également une fonction de perte hybride combinant la Similarité Structurelle (SSIM), l'Erreur Quadratique Moyenne (MSE) et une perte adversariale, afin de guider le réseau vers une amélioration supplémentaire de la structure globale du premier plan. Par ailleurs, nous avons construit un grand jeu de données pour le matting, comprenant 59 600 images d'entraînement et 1 000 images de test (soit au total 646 masques alpha distincts du premier plan), qui renforce davantage la robustesse de notre modèle d'agrégation hiérarchique. Des expériences étendues démontrent que le HAttMatting proposé permet de capturer des structures de premier plan complexes et d'atteindre des performances de pointe lorsqu'il est alimenté par une seule image RGB.