Command Palette
Search for a command to run...
VQA Neuro-Symbolique : Dissocier le Raisonnement de la Compréhension Visuelle et Linguistique
VQA Neuro-Symbolique : Dissocier le Raisonnement de la Compréhension Visuelle et Linguistique
Résumé
Nous combinons deux idées puissantes : l'apprentissage de représentations profondes pour la reconnaissance visuelle et la compréhension du langage, ainsi que l'exécution de programmes symboliques pour le raisonnement. Notre système de réponse à questions visuelles neuronales-symboliques (NS-VQA) récupère d'abord une représentation structurée de la scène à partir de l'image et une trace de programme à partir de la question. Il exécute ensuite le programme sur la représentation de la scène pour obtenir une réponse. L'intégration d'une structure symbolique en tant que connaissance a priori offre trois avantages uniques. Premièrement, l'exécution des programmes dans un espace symbolique est plus robuste face aux traces de programmes longues ; notre modèle peut résoudre des tâches de raisonnement complexes avec une précision atteignant 99,8 % sur le jeu de données CLEVR. Deuxièmement, le modèle est plus efficace en termes de données et de mémoire : il performe bien après avoir été entraîné sur un petit nombre de données d'entraînement ; il peut également encoder une image sous forme d'une représentation compacte, nécessitant moins d'espace de stockage que les méthodes actuelles pour les réponses hors ligne aux questions. Troisièmement, l'exécution des programmes symboliques offre une pleine transparence au processus de raisonnement ; nous sommes donc capables d'interpréter et diagnostiquer chaque étape d'exécution.