HyperAIHyperAI
il y a 8 jours

Plus puissants, moins nombreux et supérieurs : Exploiter les modèles fondamentaux de vision pour une segmentation sémantique généralisée au domaine

Zhixiang Wei, Lin Chen, Yi Jin, Xiaoxiao Ma, Tianle Liu, Pengyang Ling, Ben Wang, Huaian Chen, Jinjin Zheng
Plus puissants, moins nombreux et supérieurs : Exploiter les modèles fondamentaux de vision pour une segmentation sémantique généralisée au domaine
Résumé

Dans cet article, nous évaluons d’abord divers Modèles Fondamentaux Vision (VFMs) dans le cadre de la segmentation sémantique généralisée par domaine (DGSS). Motivés par l’hypothèse selon laquelle l’exploitation de modèles pré-entraînés plus puissants combinée à un nombre réduit de paramètres ajustables permet d’obtenir une généralisation supérieure, nous proposons une méthode robuste de fine-tuning, nommée Rein, permettant d’exploiter efficacement les VFMs pour la DGSS avec une faible consommation de paramètres ajustables. Fondée sur un ensemble de tokens ajustables, chacun associé à des instances distinctes, Rein affine précisément les cartes de caractéristiques de chaque couche du modèle principal avant de les transmettre à la couche suivante. Ce processus génère ainsi des ajustements variés pour différentes catégories au sein d’une même image. Grâce à un nombre réduit de paramètres ajustables, Rein permet un fine-tuning efficace des VFMs pour les tâches de DGSS, dépassant surprenamment même les approches de fine-tuning complet des paramètres. Des expériences étendues menées dans diverses configurations démontrent que Rein surpasse significativement les méthodes de pointe. Notamment, avec seulement 1 % supplémentaire de paramètres ajustables dans le modèle principal gelé, Rein atteint un mIoU de 78,4 % sur Cityscapes, sans avoir accès à aucun jeu de données réels de scènes urbaines. Le code est disponible à l’adresse suivante : https://github.com/w1oves/Rein.git.