HyperAIHyperAI
il y a 16 jours

Similarité équivariante pour les modèles fondamentaux vision-langage

Tan Wang, Kevin Lin, Linjie Li, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang
Similarité équivariante pour les modèles fondamentaux vision-langage
Résumé

Cette étude explore le concept d’équivariance dans les modèles fondamentaux vision-langage (VLM), en se concentrant spécifiquement sur la fonction de similarité multimodale, qui constitue non seulement l’objectif principal d’entraînement, mais aussi le cœur de la capacité délivrée pour soutenir les tâches en aval. Contrairement à l’objectif existant de similarité image-texte, qui ne distingue que les paires correspondantes comme similaires et les paires non correspondantes comme dissimilaires, l’équivariance exige que la similarité évolue fidèlement en fonction des changements sémantiques. Cela permet aux VLM d’obtenir une meilleure généralisation face à des compositions multimodales subtiles et inédites. Toutefois, modéliser l’équivariance est difficile, car la vérité terrain des changements sémantiques est difficile à collecter. Par exemple, étant donné une paire image-texte décrivant un chien, il n’est pas clair dans quelle mesure la similarité évolue lorsque le pixel est modifié pour représenter un chat. À cet effet, nous proposons EqSim, une perte de régularisation pouvant être calculée efficacement à partir de deux paires d’entraînement correspondantes, et facilement intégrable dans les procédés existants de fine-tuning de récupération image-texte. Par ailleurs, afin de diagnostiquer plus précisément l’équivariance des VLM, nous introduisons un nouveau benchmark exigeant, EqBen. Contrairement aux ensembles d’évaluation existants, EqBen est le premier à se concentrer sur les « changements visuels minimaux ». Des expériences étendues mettent en évidence le manque d’équivariance dans les VLM actuels et valident l’efficacité d’EqSim. Le code est disponible à l’adresse suivante : https://github.com/Wangt-CN/EqBen.

Similarité équivariante pour les modèles fondamentaux vision-langage | Articles de recherche récents | HyperAI