Réponse aux questions sur les images à l'aide d'un réseau neuronal convolutif avec prédiction dynamique des paramètres

Nous abordons le problème de réponse aux questions sur les images (ImageQA) en apprenant un réseau neuronal convolutif (CNN) doté d'une couche de paramètres dynamiques dont les poids sont déterminés de manière adaptative en fonction des questions. Pour la prédiction des paramètres adaptatifs, nous utilisons un réseau de prédiction des paramètres distinct, composé d'une unité récurrente à porte (GRU) qui prend une question comme entrée et d'une couche entièrement connectée qui génère un ensemble de poids candidats comme sortie. Cependant, il est difficile de construire un réseau de prédiction des paramètres pour un grand nombre de paramètres dans la couche dynamique entièrement connectée du CNN. Nous réduisons la complexité de ce problème en intégrant une technique de hachage, où les poids candidats fournis par le réseau de prédiction des paramètres sont sélectionnés à l'aide d'une fonction de hachage prédéfinie pour déterminer les poids individuels dans la couche de paramètres dynamiques. Le réseau proposé --- réseau conjoint comprenant le CNN pour ImageQA et le réseau de prédiction des paramètres --- est entraîné bout à bout par rétropropagation, où ses poids sont initialisés à l'aide d'un CNN et d'une GRU pré-entraînés. L'algorithme proposé illustre des performances au niveau de l'état de l'art sur tous les bancs d'essai publics disponibles pour ImageQA.