Un Vision Transformer ré-paramétrisé (ReVT) pour la segmentation sémantique généralisée au domaine

La tâche de segmentation sémantique consiste à attribuer des étiquettes sémantiques à chaque pixel d'une image. Toutefois, la performance de ces modèles se dégrade lorsqu'ils sont déployés dans un domaine inédit présentant une distribution de données différente de celle du domaine d'entraînement. Nous proposons une nouvelle approche pilotée par l'augmentation pour la généralisation de domaine en segmentation sémantique, basée sur un vision transformer réparamétré (ReVT) dont les poids sont moyennés après l'entraînement à partir de plusieurs modèles. Nous évaluons notre méthode sur plusieurs jeux de données de référence et obtenons des performances de mIoU de pointe : 47,3 % (état de l'art : 46,3 %) pour les modèles de petite taille, et 50,1 % (état de l'art : 47,8 %) pour les modèles de taille moyenne, sur des jeux de données couramment utilisés. Par ailleurs, notre méthode nécessite moins de paramètres et atteint un débit d'images supérieur à celui de l'état de l'art le plus performant. Elle est également facile à implémenter, et contrairement aux ensembles de réseaux, n'ajoute aucune complexité computationnelle pendant l'inférence.