Segmentation sémantique pilotée par le langage

Nous présentons LSeg, un nouveau modèle pour la segmentation sémantique d’images pilotée par le langage. LSeg utilise un encodeur de texte pour calculer les embeddings des étiquettes descriptives d’entrée (par exemple, « herbe » ou « bâtiment »), ainsi qu’un encodeur d’image basé sur un transformateur, qui calcule des embeddings denses par pixel de l’image d’entrée. L’encodeur d’image est entraîné avec une objectif contrastif afin d’aligner les embeddings des pixels sur les embeddings textuels correspondant à la classe sémantique. Les embeddings textuels offrent une représentation d’étiquettes flexible, dans laquelle des étiquettes sémantiquement similaires sont cartographiées vers des régions proches dans l’espace d’embedding (par exemple, « chat » et « poilu »). Cela permet à LSeg de généraliser à des catégories inconnues auparavant au moment du test, sans réentraînement ni même la nécessité d’un échantillon supplémentaire. Nous démontrons que notre approche atteint des performances zéro-shot très compétitives par rapport aux méthodes existantes de segmentation sémantique zéro- et peu-shot, et même une précision équivalente aux algorithmes traditionnels de segmentation lorsque l’ensemble fixe d’étiquettes est fourni. Le code et une démonstration sont disponibles à l’adresse suivante : https://github.com/isl-org/lang-seg.