VIVO : Pré-entraînement du vocabulaire visuel pour la génération de légendes d'objets nouveaux

Il est hautement souhaitable, bien que difficile, de générer des légendes d’images capables de décrire des objets nouveaux, jamais observés dans les données d’entraînement étiquetées par des légendes, une capacité évaluée dans le défi de captioning d’objets inédits (NoCaps). Dans ce défi, aucune donnée d’entraînement supplémentaire image-légende, hormis celle de COCO Captions, n’est autorisée pour l’entraînement du modèle. Par conséquent, les méthodes classiques de pré-entraînement vision-langage (VLP) ne peuvent pas être appliquées. Ce papier présente VIVO (Visual Vocabulary pretraining), une méthode de pré-entraînement effectuée en l’absence d’étiquettes de légendes. En rompant la dépendance vis-à-vis des paires données image-légende dans le cadre du VLP, VIVO permet d’exploiter de grandes quantités de données image-étiquette appariées afin d’apprendre un vocabulaire visuel. Ceci est réalisé par le pré-entraînement d’un modèle Transformer à plusieurs couches, qui apprend à aligner des étiquettes au niveau de l’image avec leurs caractéristiques correspondantes au niveau des régions de l’image. Pour traiter la nature désordonnée des étiquettes d’image, VIVO utilise une perte de correspondance par algorithme de Hungarian combinée à une tâche de prédiction d’étiquettes masquées afin de réaliser le pré-entraînement. Nous validons l’efficacité de VIVO en fin-tunant le modèle pré-entraîné pour la génération de légendes d’images. En outre, nous menons une analyse de l’alignement visuel-textuel induit par notre modèle. Les résultats montrent que notre modèle est non seulement capable de produire des légendes fluides décrivant des objets inédits, mais aussi d’identifier précisément leurs localisations. Notre modèle unique atteint de nouveaux records d’état de l’art sur NoCaps, dépassant même le score humain en CIDEr.