HyperAIHyperAI
il y a 2 mois

Modèles de vision-contraste améliorés par la récupération

Iscen, Ahmet ; Caron, Mathilde ; Fathi, Alireza ; Schmid, Cordelia
Modèles de vision-contraste améliorés par la récupération
Résumé

Les modèles d'image et de texte par contraste tels que CLIP constituent les éléments fondamentaux de nombreux systèmes d'avant-garde. Bien qu'ils excellent dans la reconnaissance des concepts génériques courants, ils rencontrent encore des difficultés avec les entités à grain fin qui sont rares ou même absentes du jeu de données pré-entraîné. Par conséquent, un ingrédient clé de leur succès a été l'utilisation de données pré-entraînées à grande échelle et soigneusement curatées, visant à élargir l'ensemble des concepts qu'ils peuvent mémoriser lors de la phase de pré-entraînement. Dans cette étude, nous explorons une alternative à l'encodage direct des connaissances à grain fin dans les paramètres du modèle : nous entraînons plutôt le modèle à récupérer ces connaissances à partir d'une mémoire externe. Plus précisément, nous proposons d'équiper les modèles existants d'image et de texte avec la capacité de raffiner leurs plongements (embeddings) en utilisant des informations multimodales récupérées d'une mémoire au moment de l'inférence, ce qui améliore considérablement leurs prédictions en zero-shot. De manière remarquable, nous montrons que cela peut être réalisé avec un transformateur de fusion léger et monocouche placé au-dessus d'un CLIP figé (frozen). Nos expériences valident que notre formation par retrieval-enhanced contrastive (RECO) améliore substantiellement les performances de CLIP sur plusieurs tâches à grain fin difficiles : par exemple, +10.9 sur Stanford Cars, +10.2 sur CUB-2011 et +7.3 sur le récent benchmark OVEN, où nous surpassons même les modèles affinés (fine-tuned) sur des classes inconnues.