HyperAIHyperAI
il y a 2 mois

Réseaux de Modules Neuraux

Jacob Andreas; Marcus Rohrbach; Trevor Darrell; Dan Klein
Réseaux de Modules Neuraux
Résumé

La réponse visuelle aux questions est fondamentalement de nature compositionnelle --- une question comme « Où se trouve le chien ? » partage des sous-structures avec des questions comme « Quelle est la couleur du chien ? » et « Où se trouve le chat ? ». Cet article vise à exploiter simultanément la capacité représentative des réseaux profonds et la structure linguistique compositionnelle des questions. Nous décrivons une procédure pour construire et apprendre des réseaux de modules neuronaux, qui composent des collections de modules neuronaux conjointement entraînés en réseaux profonds pour répondre aux questions. Notre approche décompose les questions en leurs sous-structures linguistiques, et utilise ces structures pour instancier dynamiquement des réseaux modulaires (avec des composants réutilisables pour reconnaître les chiens, classifier les couleurs, etc.). Les réseaux composites résultants sont conjointement entraînés. Nous évaluons notre approche sur deux jeux de données difficiles pour la réponse visuelle aux questions, obtenant des résultats d'état de l'art tant sur le jeu de données d'images naturelles VQA que sur un nouveau jeu de données de questions complexes concernant des formes abstraites.