Neural Self Talk : Compréhension des images par un questionnement et des réponses continus

Dans cet article, nous abordons le problème de la découverte continue du contenu des images en posant activement des questions basées sur les images et en répondant ensuite à ces questions. Les composants clés incluent un module de Génération de Questions Visuelles (VQG) et un module de Réponse à des Questions Visuelles (VQA), dans lesquels sont utilisés des Réseaux Neuronaux Récurents (RNN) et des Réseaux Neuronaux Convolutifs (CNN). Étant donné un ensemble de données contenant des images, des questions et leurs réponses, les deux modules sont formés simultanément, avec une différence : le VQG utilise les images comme entrée et génère les questions correspondantes comme sortie, tandis que le VQA utilise les images et les questions comme entrée pour produire les réponses correspondantes comme sortie. Nous évaluons le processus d'auto-dialogue de manière subjective en utilisant Amazon Mechanical Turk, ce qui démontre l'efficacité de la méthode proposée.