Réconciliation des encodeurs vision et langage : Une adaptation efficace en paramètres pour la segmentation d’images par référence

L’ajustement efficace des paramètres (Parameter Efficient Tuning, PET) a suscité un intérêt croissant en raison de sa capacité à réduire le nombre de paramètres tout en maintenant des performances élevées, tout en offrant des économies significatives en ressources matérielles. Toutefois, peu d’études se sont penchées sur les tâches de prédiction dense ou sur les interactions entre modalités. Dans cet article, nous menons une investigation des problèmes d’ajustement efficace dans le cadre de la segmentation d’images par référence. Nous proposons un nouvel adapter, nommé Bridger, conçu pour faciliter l’échange d’informations entre modalités et injecter des informations spécifiques à la tâche dans un modèle pré-entraîné. Nous avons également conçu un décodeur léger adapté à la segmentation d’images. Notre approche atteint des performances comparables ou supérieures tout en n’ajustant que 1,61 % à 3,38 % des paramètres du modèle principal, comme évalué sur des benchmarks exigeants. Le code source est disponible à l’adresse suivante : \url{https://github.com/kkakkkka/ETRIS}.