Transformateur de masque piloté par requête textuelle pour une segmentation généralisée au domaine

Dans cet article, nous proposons une méthode pour aborder la segmentation sémantique généralisée aux domaines (DGSS) en exploitant des connaissances sémantiques invariantes par rapport au domaine issues des embeddings textuels des modèles vision-langage. Nous utilisons ces embeddings textuels comme requêtes d'objets au sein d'un cadre de segmentation basé sur les transformateurs (requêtes d'objets textuelles). Ces requêtes sont considérées comme une base invariante par rapport au domaine pour le regroupement des pixels dans le cadre de la DGSS. Afin d’exploiter pleinement le potentiel des requêtes d'objets textuelles, nous introduisons un nouveau cadre nommé Textual Query-Driven Mask Transformer (tqdm). Notre modèle tqdm vise à (1) générer des requêtes d'objets textuelles qui encodent de manière optimale des sémantiques invariantes par rapport au domaine, et (2) améliorer la clarté sémantique des caractéristiques visuelles denses. En outre, nous proposons trois pertes de régularisation afin d’améliorer l’efficacité de tqdm en alignant les caractéristiques visuelles et textuelles. Grâce à notre approche, le modèle parvient à comprendre les informations sémantiques intrinsèques des classes d’intérêt, lui permettant de généraliser efficacement à des domaines extrêmes (par exemple, des images au style croquis). Notre modèle tqdm atteint un score de 68,9 mIoU sur la tâche GTA5 → Cityscapes, surpassant ainsi la méthode de l’état de l’art précédente de 2,5 mIoU. La page du projet est disponible à l’adresse suivante : https://byeonghyunpak.github.io/tqdm.