EmbedMask : Couplage d'embeddings pour la segmentation d'instances en une seule étape

Les méthodes actuelles de segmentation d'instances peuvent être classées en deux catégories : les méthodes basées sur la segmentation, qui segmentent d'abord puis effectuent un regroupement (clustering), et les méthodes basées sur les propositions, qui détectent d'abord puis prédiseent des masques pour chaque proposition d'instance via un mécanisme de repooling. Dans ce travail, nous proposons une méthode à une seule étape, nommée EmbedMask, qui unifie ces deux approches en tirant parti de leurs avantages respectifs. À l’instar des méthodes basées sur les propositions, EmbedMask repose sur des modèles de détection, ce qui lui confère une forte capacité de détection. Par ailleurs, EmbedMask introduit des modules supplémentaires d’embedding pour générer des embeddings au niveau des pixels et des propositions ; les embeddings des pixels sont guidés par ceux des propositions s’ils appartiennent à la même instance. Grâce à ce processus de couplage d’embeddings, les pixels sont attribués au masque de la proposition correspondante lorsque leurs embeddings sont similaires. Ce regroupement au niveau des pixels permet à EmbedMask de générer des masques à haute résolution sans perdre de détails dus au repooling, tandis que la présence des embeddings de propositions simplifie et renforce le processus de clustering, permettant ainsi une vitesse élevée et des performances supérieures à celles des méthodes basées sur la segmentation. Sans aucune fonctionnalité additionnelle, EmbedMask atteint des performances comparables à celles de Mask R-CNN, la méthode representative à deux étapes, tout en produisant des masques plus détaillés à une vitesse plus élevée. Le code est disponible à l’adresse github.com/yinghdb/EmbedMask.