Formation d'unités de réponse récurrentes avec minimisation conjointe de la perte pour le VQA

Nous proposons un nouvel algorithme pour le réponse aux questions visuelles basé sur un réseau neuronal profond récurrent, où chaque module du réseau correspond à une unité de réponse complète dotée d'un mécanisme d'attention. Le réseau est optimisé en minimisant la perte agrégée provenant de toutes les unités, qui partagent les paramètres du modèle tout en recevant des informations différentes pour calculer la probabilité d'attention. Pour l'entraînement, notre modèle se concentre sur une région au sein de la carte des caractéristiques de l'image, met à jour sa mémoire en fonction de la question et de la caractéristique de l'image sélectionnée, puis répond à la question en fonction de son état de mémoire. Cette procédure est effectuée pour calculer la perte à chaque étape. La motivation de cette approche découle de notre constatation que des inférences multistep (multi-étapes) sont souvent nécessaires pour répondre aux questions, bien que chaque problème puisse avoir un nombre d'étapes souhaitable unique, ce qui est difficile à déterminer en pratique. Par conséquent, nous faisons toujours en sorte que l'unité initiale du réseau résolve les problèmes, mais nous lui permettons d'apprendre des connaissances des autres unités par rétropropagation, sauf si cela dégrade le modèle. Pour mettre en œuvre cette idée, nous arrêtons prématurément l'entraînement de chaque unité dès qu'elle commence à surapprendre. Il convient de noter que, comme les modèles plus complexes ont tendance à surapprendre rapidement sur les questions plus faciles, l'unité finale dans le réseau neuronal récurrent déroulé est généralement éliminée en premier tandis que la première reste active jusqu'à la fin. Nous effectuons une prédiction mono-étape pour une nouvelle question en utilisant le modèle partagé. Cette stratégie fonctionne mieux que les autres options au sein de notre cadre car le modèle sélectionné est formé efficacement par toutes les unités sans surapprentissage. L'algorithme proposé surpasses d'autres approches basées sur l'attention multistep (multi-étapes) utilisant une prédiction mono-étape dans le jeu de données VQA (Visual Question Answering).