il y a 2 mois

Inférer et Exécuter des Programmes pour le Raisonnement Visuel

Justin Johnson; Bharath Hariharan; Laurens van der Maaten; Judy Hoffman; Li Fei-Fei; C. Lawrence Zitnick; Ross Girshick

Résumé

Les méthodes actuelles de raisonnement visuel tentent de mapper directement les entrées aux sorties en utilisant des architectures boîte noire, sans modéliser explicitement les processus de raisonnement sous-jacents. Par conséquent, ces modèles boîte noire apprennent souvent à exploiter les biais dans les données plutôt qu'à effectuer un raisonnement visuel. Inspirés par les réseaux modulaires, cet article propose un modèle de raisonnement visuel composé d'un générateur de programme qui construit une représentation explicite du processus de raisonnement à exécuter, et d'une unité d'exécution qui exécute le programme résultant pour produire une réponse. Le générateur de programme et l'unité d'exécution sont tous deux mis en œuvre par des réseaux neuronaux et formés en utilisant une combinaison de rétropropagation et de REINFORCE (méthode d'apprentissage par renforcement). En utilisant la norme CLEVR pour le raisonnement visuel, nous montrons que notre modèle surpasse significativement des lignes de base solides et généralise mieux dans diverses configurations.