HyperAIHyperAI

Command Palette

Search for a command to run...

Formation d'unités de réponse récurrentes avec minimisation conjointe de la perte pour le VQA

Hyeonwoo Noh Bohyung Han

Résumé

Nous proposons un nouvel algorithme pour le réponse aux questions visuelles basé sur un réseau neuronal profond récurrent, où chaque module du réseau correspond à une unité de réponse complète dotée d'un mécanisme d'attention. Le réseau est optimisé en minimisant la perte agrégée provenant de toutes les unités, qui partagent les paramètres du modèle tout en recevant des informations différentes pour calculer la probabilité d'attention. Pour l'entraînement, notre modèle se concentre sur une région au sein de la carte des caractéristiques de l'image, met à jour sa mémoire en fonction de la question et de la caractéristique de l'image sélectionnée, puis répond à la question en fonction de son état de mémoire. Cette procédure est effectuée pour calculer la perte à chaque étape. La motivation de cette approche découle de notre constatation que des inférences multistep (multi-étapes) sont souvent nécessaires pour répondre aux questions, bien que chaque problème puisse avoir un nombre d'étapes souhaitable unique, ce qui est difficile à déterminer en pratique. Par conséquent, nous faisons toujours en sorte que l'unité initiale du réseau résolve les problèmes, mais nous lui permettons d'apprendre des connaissances des autres unités par rétropropagation, sauf si cela dégrade le modèle. Pour mettre en œuvre cette idée, nous arrêtons prématurément l'entraînement de chaque unité dès qu'elle commence à surapprendre. Il convient de noter que, comme les modèles plus complexes ont tendance à surapprendre rapidement sur les questions plus faciles, l'unité finale dans le réseau neuronal récurrent déroulé est généralement éliminée en premier tandis que la première reste active jusqu'à la fin. Nous effectuons une prédiction mono-étape pour une nouvelle question en utilisant le modèle partagé. Cette stratégie fonctionne mieux que les autres options au sein de notre cadre car le modèle sélectionné est formé efficacement par toutes les unités sans surapprentissage. L'algorithme proposé surpasses d'autres approches basées sur l'attention multistep (multi-étapes) utilisant une prédiction mono-étape dans le jeu de données VQA (Visual Question Answering).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp