Raisonnement de粗到细 pour la réponse aux questions visuelles

Le pont entre le sens visuel et la question constitue une étape cruciale pour améliorer la précision de la tâche de réponse aux questions visuelles (Visual Question Answering, VQA). Toutefois, la plupart des méthodes actuelles se concentrent principalement sur les mécanismes d’attention ou les relations visuelles pour raisonner la réponse, sans exploiter pleinement les caractéristiques aux différents niveaux sémantiques. Dans cet article, nous proposons un nouveau cadre de raisonnement visant à combler cet écart entre les caractéristiques visuelles et les indices sémantiques dans la tâche VQA. Notre méthode extrait d’abord les caractéristiques et les prédicats à partir de l’image et de la question. Ensuite, nous introduisons un nouveau cadre de raisonnement permettant d’apprendre efficacement, de manière fine à grossière, ces caractéristiques et prédicats de manière conjointe. Les résultats expérimentaux intensifs sur trois grands jeux de données VQA montrent que notre approche atteint une précision supérieure par rapport aux méthodes de pointe existantes. En outre, notre cadre de raisonnement offre également une approche explicite pour comprendre les décisions du réseau neuronal profond lors de la prédiction de la réponse.