MatteFormer : Matting d’images basé sur Transformer par tokens a priori

Dans cet article, nous proposons un modèle d’image matting basé sur le transformer, appelé MatteFormer, qui exploite pleinement les informations du trimap au sein des blocs du transformer. Notre méthode introduit d’abord un token prior, représentant globalement chaque région du trimap (par exemple, objet principal, fond et région inconnue). Ces tokens prior sont utilisés comme priorités globales et participent au mécanisme d’attention auto-attentive de chaque bloc. Chaque étape de l’encodeur est composée d’un bloc PAST (Prior-Attentive Swin Transformer), basé sur le bloc Swin Transformer, mais différencié sur plusieurs aspects : 1) Il intègre une couche PA-WSA (Prior-Attentive Window Self-Attention), qui réalise l’attention auto-attentive non seulement sur les tokens spatiaux, mais également sur les tokens prior ; 2) Il dispose d’une mémoire prior, qui conserve de manière cumulative les tokens prior provenant des blocs précédents et les transmet au bloc suivant. Nous évaluons notre modèle MatteFormer sur des jeux de données couramment utilisés pour le matting d’images : Composition-1k et Distinctions-646. Les résultats expérimentaux démontrent que notre méthode atteint des performances de pointe, avec un écart significatif par rapport aux méthodes existantes. Le code source est disponible à l’adresse suivante : https://github.com/webtoon/matteformer.