HyperAIHyperAI
il y a 16 jours

Combien CLIP peut-il bénéficier aux tâches vision-langage ?

Sheng Shen, Liunian Harold Li, Hao Tan, Mohit Bansal, Anna Rohrbach, Kai-Wei Chang, Zhewei Yao, Kurt Keutzer
Combien CLIP peut-il bénéficier aux tâches vision-langage ?
Résumé

La plupart des modèles existants de vision et langage (V&L) s'appuient sur des encodeurs visuels pré-entraînés, en utilisant un ensemble relativement restreint de données manuellement annotées (par rapport aux données collectées par web-crawling) pour percevoir le monde visuel. Toutefois, il a été observé que l'entraînement à grande échelle conduit généralement à de meilleures performances de généralisation, comme en témoigne CLIP (Contrastive Language-Image Pre-training), entraîné sur un volume massif de paires image-légende, qui a démontré une capacité remarquable en zero-shot sur diverses tâches de vision. Afin d'approfondir l'étude des avantages apportés par CLIP, nous proposons d'utiliser CLIP comme encodeur visuel dans divers modèles V&L dans deux scénarios typiques : 1) intégrer CLIP dans un fine-tuning spécifique à la tâche ; 2) combiner CLIP avec un pré-entraînement V&L et transférer les connaissances vers des tâches en aval. Nous montrons que CLIP surpasse significativement les encodeurs visuels largement utilisés entraînés sur des données annotées dans le domaine, tels que BottomUp-TopDown. Nous obtenons des résultats compétitifs ou supérieurs sur une variété de tâches V&L, tout en établissant de nouveaux records d'état-de-l'art sur les tâches de réponse à des questions visuelles (Visual Question Answering), d'entailment visuel (Visual Entailment) et de navigation V&L. Nous mettons notre code à disposition à l'adresse suivante : https://github.com/clip-vil/CLIP-ViL.

Combien CLIP peut-il bénéficier aux tâches vision-langage ? | Articles de recherche récents | HyperAI