HyperAIHyperAI
il y a 2 mois

Apprentissage de modèles visuels personnalisés avec des connaissances augmentées par la recherche

Haotian Liu; Kilho Son; Jianwei Yang; Ce Liu; Jianfeng Gao; Yong Jae Lee; Chunyuan Li
Apprentissage de modèles visuels personnalisés avec des connaissances augmentées par la recherche
Résumé

Les modèles d'apprentissage par contraste image-texte tels que CLIP ont démontré une forte capacité de transfert de tâches. La grande généralité et l'utilisabilité de ces modèles visuels sont obtenues grâce à un processus de collecte de données à l'échelle du Web pour assurer une couverture large des concepts, suivi d'un pré-entraînement coûteux afin d'intégrer toutes les connaissances dans les poids du modèle. En alternative, nous proposons REACT, un cadre de personnalisation augmentée par la recherche (REtrieval-Augmented CusTomization), permettant d'acquérir les connaissances Web pertinentes pour construire des modèles visuels personnalisés destinés à des domaines cibles. Nous récupérons les paires image-texte les plus pertinentes (environ 3% des données utilisées pour le pré-entraînement de CLIP) depuis la base de données à l'échelle du Web en tant que connaissance externe, et nous proposons de personnaliser le modèle en n'entraînant que de nouveaux blocs modulaires tout en gelant tous les poids originaux. L'efficacité de REACT est démontrée par des expériences approfondies sur des tâches de classification, recherche, détection et segmentation, incluant des configurations zero-shot, few-shot et full-shot. Particulièrement, sur la tâche de classification zero-shot, REACT atteint une amélioration pouvant aller jusqu'à 5,4% sur ImageNet et 3,7% sur le benchmark ELEVATER (20 jeux de données).