Réseau adaptateur latéral pour la segmentation sémantique à vocabulaire ouvert

Cet article présente un nouveau cadre pour la segmentation sémantique à vocabulaire ouvert basé sur un modèle vision-langage pré-entraîné, nommé Side Adapter Network (SAN). Notre approche modélise la tâche de segmentation sémantique comme un problème de reconnaissance de régions. Un réseau secondaire est attaché à un modèle CLIP gelé, composé de deux branches : l'une pour prédire des propositions de masques, et l'autre pour prédire un biais d'attention appliqué au modèle CLIP afin de reconnaître la classe des masques. Ce design décomposé permet au modèle CLIP de mieux reconnaître la classe des propositions de masques. Étant donné que le réseau secondaire peut réutiliser les caractéristiques de CLIP, il reste très léger. En outre, le réseau entier peut être entraîné de manière end-to-end, permettant au réseau secondaire d’être adapté au modèle CLIP gelé, ce qui rend les propositions de masques prédites « conscientes de CLIP ». Notre approche est rapide, précise, et n’ajoute qu’un petit nombre de paramètres entraînables. Nous évaluons notre méthode sur plusieurs benchmarks de segmentation sémantique. Notre méthode surpasse significativement les approches concurrentes, avec jusqu’à 18 fois moins de paramètres entraînables et une vitesse d’inférence jusqu’à 19 fois plus rapide. Nous espérons que notre approche pourra servir de base solide et faciliter les recherches futures dans le domaine de la segmentation sémantique à vocabulaire ouvert. Le code source sera disponible à l’adresse suivante : https://github.com/MendelXu/SAN.