Command Palette
Search for a command to run...
Raisonnement visuel explicatif et explicite sur les graphes de scène
Raisonnement visuel explicatif et explicite sur les graphes de scène
Jiaxin Shi Hanwang Zhang Juanzi Li
Résumé
Nous visons à décomposer les architectures neuronales couramment utilisées dans les tâches de raisonnement visuel complexe en modules neuronaux explicables et explicites proposés (XNMs), qui représentent une avancée par rapport aux réseaux de modules neuronaux existants vers l'utilisation de graphes de scène — où les objets sont des nœuds et les relations binaires sont des arêtes — pour un raisonnement explicite et structuré avec des connaissances organisées. Les XNMs nous permettent de porter une attention particulière à l'enseignement aux machines de la façon dont elles doivent « penser », indépendamment de ce qu'elles « voient ». Comme nous le montrerons dans cet article, en utilisant les graphes de scène comme biais inductif, 1) nous pouvons concevoir les XNMs d'une manière concise et flexible, c'est-à-dire que les XNMs ne comprennent que 4 types métas, ce qui réduit considérablement le nombre de paramètres par 10 à 100 fois, et 2) nous pouvons suivre explicitement le flux du raisonnement en termes d'attentions sur le graphe. Les XNMs sont si génériques qu'ils supportent une large gamme d'implémentations de graphes de scène avec des qualités variées. Par exemple, lorsque les graphes sont détectés parfaitement, les XNMs atteignent une précision de 100 % sur CLEVR et CLEVR CoGenT, établissant une limite supérieure empirique pour le raisonnement visuel ; lorsque les graphes sont détectés bruyamment à partir d'images du monde réel, les XNMs restent robustes pour atteindre une précision compétitive de 67,5 % sur VQAv2.0, surpassant ainsi les modèles populaires d'attention basés sur un sac d'objets sans structures de graphe.