Densément Connecté pour un Ajustement Efficace des Paramètres dans la Segmentation d'Images par Référence

Dans le domaine de la vision par ordinateur, l'ajustement efficace des paramètres (Parameter-Efficient Tuning, PET) remplace de plus en plus le paradigme traditionnel de pré-entraînement suivi d'un ajustement complet. Le PET est particulièrement apprécié pour son efficacité dans les grands modèles fondamentaux, car il rationalise les coûts du transfert d'apprentissage et optimise l'utilisation du matériel. Cependant, les méthodes actuelles de PET sont principalement conçues pour l'optimisation unimodale. Bien que certaines études pionnières aient entrepris des explorations préliminaires, elles restent au niveau des encodeurs alignés (par exemple, CLIP) et manquent d'explorer les encodeurs non alignés. Ces méthodes montrent une performance sous-optimale avec les encodeurs non alignés, car elles échouent à aligner efficacement les caractéristiques multimodales lors de l'ajustement fin. Dans cet article, nous présentons DETRIS, un cadre d'ajustement efficace des paramètres conçu pour améliorer la propagation de faible rang des caractéristiques visuelles en établissant des interconnexions denses entre chaque couche et toutes les couches précédentes, ce qui permet une interaction et une adaptation efficaces des caractéristiques croisées aux encodeurs non alignés. Nous suggérons également l'utilisation d'adaptateurs textuels pour améliorer les caractéristiques textuelles. Notre approche simple mais efficace surpasse largement les méthodes de pointe avec seulement 0,9% à 1,8% de mises à jour des paramètres du backbone, évaluée sur des benchmarks difficiles. Notre projet est disponible à l'adresse \url{https://github.com/jiaqihuang01/DETRIS}.