HyperAIHyperAI
il y a 18 jours

VinVL+L : Approfondir la représentation visuelle grâce au contexte spatial dans le VQA

{Lukáš Picek, Jiří Vyskočil}
VinVL+L : Approfondir la représentation visuelle grâce au contexte spatial dans le VQA
Résumé

Dans cet article, nous présentons une nouvelle méthode, nommée VinVL+L, qui enrichit les représentations visuelles (c’est-à-dire les étiquettes d’objets et les caractéristiques de région) du modèle de pointe en vision et langage (VL), VinVL, en intégrant des informations de localisation. Pour vérifier l’importance de telles métadonnées pour les modèles VL, nous avons (i) entraîné un modèle Swin-B sur le jeu de données Places365 afin d’obtenir de nouvelles séries de caractéristiques visuelles et d’étiquettes, dont les ensembles ont été rendus publics afin de garantir la reproductibilité et de permettre des expérimentations ultérieures ; (ii) effectué une mise à jour architecturale du modèle VinVL existant afin d’intégrer ces nouvelles caractéristiques ; et (iii) fourni une évaluation qualitative et quantitative. En n’incorporant que des métadonnées de localisation binaires, la méthode VinVL+L apporte une amélioration incrémentale par rapport au modèle de pointe VinVL dans la tâche de réponse à des questions visuelles (VQA). VinVL+L atteint une précision de 64,85 % et améliore les performances de +0,32 % en termes de précision sur le jeu de données GQA ; la signification statistique des nouvelles représentations est confirmée par le test d’aléa approché (Approximate Randomization). Le code source ainsi que les ensembles de caractéristiques nouvellement générés sont disponibles à l’adresse suivante : https://github.com/vyskocj/VinVL-L.