Augmenter l’échelle de la segmentation sémantique multi-domaines grâce aux embeddings de phrases

Nous proposons une approche pour la segmentation sémantique qui atteint des performances supervisées de pointe lorsqu’elle est appliquée dans un cadre zero-shot. Elle permet ainsi d’obtenir des résultats équivalents à ceux des méthodes supervisées sur chacun des principaux jeux de données de segmentation sémantique, sans avoir été entraînée sur ces jeux. Ceci est réalisé en remplaçant chaque étiquette de classe par un vecteur d’embedding correspondant à un court paragraphe décrivant la classe. La généralité et la simplicité de cette approche permettent de fusionner plusieurs jeux de données provenant de domaines différents, chacun comportant des étiquettes et des sémantiques variées. Le jeu de données fusionné de segmentation sémantique, comprenant plus de 2 millions d’images, permet d’entraîner un modèle dont les performances sont équivalentes à celles des méthodes supervisées de pointe sur 7 jeux de données de référence, bien que n’ayant utilisé aucune image provenant de ces derniers. En affinant le modèle sur des jeux de données standards de segmentation sémantique, nous obtenons également une amélioration significative par rapport aux méthodes supervisées de pointe sur NYUD-V2 et PASCAL-Context, avec des scores mIoU respectifs de 60 % et 65 %. Grâce à la proximité des embeddings linguistiques, notre méthode parvient même à segmenter des étiquettes inconnues. Des expériences étendues démontrent une forte généralisation à des domaines d’images inconnus et à des étiquettes inconnues, et montrent que la méthode permet des améliorations impressionnantes dans des applications en aval, telles que l’estimation de profondeur et la segmentation d’instances.