Convolution Hybride Guidée par la Question pour le Répondre aux Questions Visuelles

Dans cet article, nous proposons un nouveau réseau de convolution hybride guidé par les questions (QGHC) pour le traitement des réponses aux questions visuelles (VQA). La plupart des méthodes VQA de pointe fusionnent les caractéristiques textuelles et visuelles de haut niveau issues des réseaux neuronaux et abandonnent les informations spatiales visuelles lors de l'apprentissage des caractéristiques multimodales. Pour résoudre ces problèmes, nous avons conçu des noyaux guidés par les questions, générés à partir de la question d'entrée, afin de convoluer avec les caractéristiques visuelles pour capturer la relation textuelle et visuelle dès le stade initial. La convolution guidée par les questions peut coupler étroitement les informations textuelles et visuelles, mais introduit également plus de paramètres lors de l'apprentissage des noyaux. Nous appliquons la convolution de groupe, qui comprend des noyaux indépendants des questions et des noyaux dépendants des questions, pour réduire la taille des paramètres et atténuer le surapprentissage. La convolution hybride peut générer des caractéristiques multimodales discriminantes avec moins de paramètres. L'approche proposée est également complémentaire aux méthodes existantes de fusion par poolage bilinéaire et basées sur l'attention pour le VQA. En les intégrant, notre méthode pourrait encore améliorer les performances. De nombreuses expériences menées sur des ensembles de données VQA publics ont validé l'efficacité du QGHC.