Échantillons contre-factuels synthétisés pour une réponse aux questions visuelles robuste

Malgré les progrès remarquables réalisés ces dernières années dans le domaine de la réponse aux questions visuelles (Visual Question Answering, VQA), les modèles actuels tendent à capturer des corrélations linguistiques superficielles présentes dans les jeux de données d’entraînement, et échouent à généraliser efficacement aux jeux de données de test présentant des distributions différentes de questions et réponses. Afin de réduire les biais linguistiques, plusieurs travaux récents ont introduit un modèle auxiliaire ne prenant en compte que les questions, afin de régulariser l’entraînement du modèle cible de VQA, obtenant ainsi des performances dominantes sur le benchmark VQA-CP. Toutefois, en raison de la complexité de leur conception, ces méthodes actuelles ne parviennent pas à doter les modèles basés sur l’ensemblage des deux caractéristiques essentielles d’un modèle de VQA idéal : 1) l’explicabilité visuelle – le modèle doit s’appuyer sur les régions visuelles pertinentes lors de la prise de décision ; 2) la sensibilité aux variations linguistiques – le modèle doit être sensible aux variations sémantiques et syntaxiques présentes dans les questions. À cet effet, nous proposons une méthode d’entraînement, appelée CSS (Counterfactual Samples Synthesizing), indépendante du modèle. La méthode CSS génère un grand nombre d’échantillons d’entraînement contrefactuels en masquant des objets clés dans les images ou des mots dans les questions, tout en attribuant des réponses de vérité terrain différentes. Après entraînement avec l’ensemble des échantillons complémentaires (c’est-à-dire les échantillons originaux et les échantillons synthétisés), les modèles de VQA sont contraints de prêter attention à toutes les informations critiques présentes tant dans les images que dans les questions, ce qui améliore significativement à la fois leur capacité d’explicabilité visuelle et leur sensibilité aux variations linguistiques. En retour, cette amélioration se traduit par une augmentation notable des performances. Des études d’ablation étendues confirment l’efficacité de la méthode CSS. En particulier, en s’appuyant sur le modèle LMH, nous atteignons une performance record de 58,95 % sur VQA-CP v2, soit une amélioration de 6,5 % par rapport aux résultats précédents.