HyperAIHyperAI
il y a 2 mois

CALIP : Amélioration zéro-shot de CLIP avec une attention sans paramètre

Ziyu Guo; Renrui Zhang; Longtian Qiu; Xianzheng Ma; Xupeng Miao; Xuming He; Bin Cui
CALIP : Amélioration zéro-shot de CLIP avec une attention sans paramètre
Résumé

Le pré-entraînement contrastif de langage et d'image (CLIP) a démontré sa capacité à apprendre des représentations visuelles avec une grande transférabilité, atteignant une précision prometteuse pour la classification zéro-shot. Pour améliorer davantage ses performances en aval, les travaux existants proposent des modules supplémentaires apprenables sur CLIP et les affinent à l'aide de petits ensembles d'entraînement. Cependant, le coût d'entraînement supplémentaire et les exigences en données freinent considérablement l'efficacité du déploiement du modèle et du transfert de connaissances. Dans cet article, nous présentons une méthode d'amélioration gratuite, CALIP, qui vise à renforcer les performances zéro-shot de CLIP grâce à un module d'attention sans paramètre. Plus précisément, nous guidons les représentations visuelles et textuelles pour qu'elles interagissent entre elles et explorent des caractéristiques informatives inter-modales par le biais de l'attention. Comme le pré-entraînement a considérablement réduit les distances d'embedding entre les deux modalités, nous éliminons tous les paramètres apprenables dans l'attention et mettons à jour bidirectionnellement les caractéristiques multimodales, permettant ainsi au processus entier d'être exempt de paramètres et d'entraînement. De cette manière, les images sont fusionnées avec des signaux textuellement conscients et les représentations textuelles deviennent guidées par la vision pour une meilleure adaptation à l'alignement zéro-shot. Nous évaluons CALIP sur diverses基准(benchmarks)de 14 jeux de données pour la classification zéro-shot des images 2D et des nuages de points 3D, montrant une amélioration constante des performances zéro-shot par rapport à CLIP. Sur cette base, nous insérons un petit nombre de couches linéaires dans le module d'attention de CALIP et vérifions notre robustesse dans des configurations zéro-shot, ce qui permet également d'obtenir des performances supérieures comparées aux méthodes existantes. Ces expériences extensives démontrent la supériorité de notre approche pour l'amélioration efficace de CLIP.Note: The term "基准" is not French and seems to have been mistakenly included in the translation process. I will replace it with the correct French term "benchmarks".Final translation:Le pré-entraînement contrastif de langage et d'image (CLIP) a démontré sa capacité à apprendre des représentations visuelles avec une grande transférabilité, atteignant une précision prometteuse pour la classification zéro-shot. Pour améliorer davantage ses performances en aval, les travaux existants proposent des modules supplémentaires apprenables sur CLIP et les affinent à l'aide de petits ensembles d'entraînement. Cependant, le coût d'entraînement supplémentaire et les exigences en données freinent considérablement l'efficacité du déploiement du modèle et du transfert de connaissances. Dans cet article, nous présentons une méthode d'amélioration gratuite, CALIP, qui vise à renforcer les performances zéro-shot de CLIP grâce à un module d'attention sans paramètre. Plus précisément, nous guidons les représentations visuelles et textuelles pour qu'elles interagissent entre elles et explorent des caractéristiques informatives inter-modales par le biais de l'attention. Comme le pré-entraînement a considérablement réduit les distances d'embedding entre les deux modalités, nous éliminons tous les paramètres apprenables dans l'attention et mettons à jour bidirectionnellement les caractéristiques multimodales, permettant ainsi au processus entier d'être exempt de paramètres et d'entraînement. De cette manière, les images sont fusionnées avec des signaux textuellement conscients et les représentations textuelles deviennent guidées par la vision pour une meilleure adaptation à l'alignement zéro-shot. Nous évaluons CALIP sur diverses benchmarks comprenant 14 jeux de données pour la classification zéro-shot des images 2D et des nuages de points 3D, montrant une amélioration constante des performances zéro-shot par rapport à CLIP. Sur cette base, nous insérons un petit nombre de couches linéaires dans le module d'attention de CALIP et vérifions notre robustesse dans des configurations zéro-shot, ce qui permet également d'obtenir des performances supérieures comparées aux méthodes existantes. Ces expériences extensives démontrent la supériorité de notre approche pour l'amélioration efficace de CLIP.