HyperAIHyperAI
il y a 11 jours

Réconciliation des encodeurs vision et langage : Une adaptation efficace en paramètres pour la segmentation d’images par référence

Zunnan Xu, Zhihong Chen, Yong Zhang, Yibing Song, Xiang Wan, Guanbin Li
Réconciliation des encodeurs vision et langage : Une adaptation efficace en paramètres pour la segmentation d’images par référence
Résumé

L’ajustement efficace des paramètres (Parameter Efficient Tuning, PET) a suscité un intérêt croissant en raison de sa capacité à réduire le nombre de paramètres tout en maintenant des performances élevées, tout en offrant des économies significatives en ressources matérielles. Toutefois, peu d’études se sont penchées sur les tâches de prédiction dense ou sur les interactions entre modalités. Dans cet article, nous menons une investigation des problèmes d’ajustement efficace dans le cadre de la segmentation d’images par référence. Nous proposons un nouvel adapter, nommé Bridger, conçu pour faciliter l’échange d’informations entre modalités et injecter des informations spécifiques à la tâche dans un modèle pré-entraîné. Nous avons également conçu un décodeur léger adapté à la segmentation d’images. Notre approche atteint des performances comparables ou supérieures tout en n’ajustant que 1,61 % à 3,38 % des paramètres du modèle principal, comme évalué sur des benchmarks exigeants. Le code source est disponible à l’adresse suivante : \url{https://github.com/kkakkkka/ETRIS}.

Réconciliation des encodeurs vision et langage : Une adaptation efficace en paramètres pour la segmentation d’images par référence | Articles de recherche récents | HyperAI