HyperAIHyperAI
il y a 16 jours

CAILA : Adaptateurs intra-couche conscients des concepts pour l'apprentissage zéro-shot compositionnel

Zhaoheng Zheng, Haidong Zhu, Ram Nevatia
CAILA : Adaptateurs intra-couche conscients des concepts pour l'apprentissage zéro-shot compositionnel
Résumé

Dans cet article, nous étudions le problème de l’apprentissage zéro-shot compositionnel (CZSL), qui consiste à reconnaître de nouvelles combinaisons attribut-objet à partir de concepts préexistants. Les recherches récentes se concentrent sur l’utilisation de modèles pré-entraînés vision-langage à grande échelle, tels que CLIP, qui possèdent une forte capacité de généralisation. Toutefois, ces approches traitent le modèle pré-entraîné comme une boîte noire et se concentrent principalement sur des opérations pré- et post-CLIP, sans exploiter de manière intrinsèque les concepts sémantiques présents entre les couches internes de CLIP. Nous proposons de creuser profondément l’architecture de CLIP en intégrant des adaptateurs — une technique efficace en termes de paramètres, déjà éprouvée avec succès dans les grands modèles linguistiques — dans chaque couche du encodeur CLIP. Nous dotons par ailleurs ces adaptateurs d’une conscience des concepts, afin d’extraire des caractéristiques spécifiques aux notions d’« objet », d’« attribut » et de « composition ». Nous évaluons notre méthode sur quatre jeux de données populaires pour le CZSL : MIT-States, C-GQA, UT-Zappos et VAW-CZSL, où elle atteint des performances de pointe par rapport aux méthodes existantes sur l’ensemble d’entre eux.

CAILA : Adaptateurs intra-couche conscients des concepts pour l'apprentissage zéro-shot compositionnel | Articles de recherche récents | HyperAI