DiffusionInst : Modèle de diffusion pour la segmentation d'instances

Les cadres de diffusion ont atteint des performances comparables à celles des modèles d’image génératifs les plus avancés précédemment proposés. Les chercheurs s’intéressent désormais à leurs variantes dans les tâches discriminatives, en raison de leur puissant pipeline de débruitage image à partir du bruit. Ce papier présente DiffusionInst, un cadre novateur qui représente les instances sous la forme de filtres sensibles aux instances et formule la segmentation d’instances comme un processus de débruitage filtre à partir du bruit. Le modèle est entraîné à inverser l’étiquette de référence bruitée, sans aucune biais inductif provenant du RPN. Lors de l’inférence, il prend un filtre aléatoirement généré comme entrée et produit une masque en une seule étape ou en plusieurs étapes de débruitage. Des résultats expérimentaux étendus sur COCO et LVIS montrent que DiffusionInst atteint des performances compétitives par rapport aux modèles existants de segmentation d’instances, utilisant divers arrière-plans tels que ResNet et Swin Transformers. Nous espérons que notre travail pourra servir de base solide, inspirant ainsi la conception de cadres de diffusion plus efficaces pour des tâches discriminatives complexes. Notre code est disponible à l’adresse suivante : https://github.com/chenhaoxing/DiffusionInst.