HyperAIHyperAI
il y a 18 jours

Activation de la génération multimodale sur CLIP par distillation de connaissances vision-langage

{Anonymous}
Activation de la génération multimodale sur CLIP par distillation de connaissances vision-langage
Résumé

La récente pré-formation à grande échelle des modèles vision-langage à architecture à deux flux (par exemple, CLIP), basée sur un volume considérable de paires image-texte, a démontré son avantage sur diverses tâches d’alignement multimodales. Malgré ses succès, ce type de modèle n’est pas capable de tâches génératives multimodales en raison de l’encodeur de texte faible. Pour résoudre ce problème, nous proposons d’enrichir le modèle VLP à deux flux en intégrant un modèle pré-entraîné de langage (PLM) par distillation de connaissances vision-langage (VLKD), ce qui permet d’acquérir une capacité de génération multimodale. La VLKD s’avère particulièrement efficace en termes de données et de ressources computationnelles par rapport à un entraînement à partir de zéro. Les résultats expérimentaux montrent que le modèle ainsi obtenu présente une forte performance en mode zéro-shot sur des tâches de génération multimodale, telles que la réponse ouverte à des questions visuelles (VQA) et la génération de légendes d’images. Par exemple, il atteint une précision de 39,7 % en mode zéro-shot sur le jeu de données VQA 2.0, dépassant ainsi le modèle d’état de l’art précédent avec 14 fois moins de paramètres. En outre, la capacité initiale de traitement du texte du PLM est préservée après la VLKD, ce qui rend notre modèle polyvalent, aussi bien pour des tâches multimodales que unimodales.