il y a 17 jours

Diffusion pour le matting d'images naturelles

Yihan Hu, Yiheng Lin, Wei Wang, Yao Zhao, Yunchao Wei, Humphrey Shi

Résumé

Nous visons à exploiter les modèles de diffusion pour résoudre la tâche difficile de matting d’images. Toutefois, la présence d’une charge computationnelle élevée ainsi que l’incohérence dans l’échantillonnage du bruit entre les phases d’entraînement et d’inférence constituent des obstacles majeurs à la réalisation de cet objectif. Dans ce travail, nous proposons DiffMatte, une solution conçue pour surmonter efficacement ces défis. Premièrement, DiffMatte découple le décodeur de l’architecture complexe et fortement couplée du réseau de matting, n’impliquant qu’un seul décodeur léger au cours des itérations du processus de diffusion. Grâce à cette stratégie, DiffMatte limite la croissance de la charge computationnelle avec le nombre d’échantillons. Deuxièmement, nous introduisons une stratégie d’entraînement auto-aligné basée sur des intervalles de temps uniformes, garantissant une cohérence de l’échantillonnage du bruit entre l’entraînement et l’inférence sur l’ensemble du domaine temporel. DiffMatte est conçu avec une grande flexibilité, permettant une intégration transparente dans diverses architectures modernes de matting. Les résultats expérimentaux étendus démontrent que DiffMatte atteint un niveau d’état de l’art sur le jeu de test Composition-1k, dépassant les meilleures méthodes antérieures de 5 % et 15 % respectivement en métrique SAD et MSE, tout en présentant une meilleure capacité de généralisation sur d’autres benchmarks.