Transparence par conception : Réduire l'écart entre performance et interprétabilité dans le raisonnement visuel

La réponse à des questions visuelles nécessite une raisonnement d'ordre supérieur concernant une image, capacité fondamentale requise par les systèmes machine pour suivre des directives complexes. Récemment, les réseaux modulaires ont été démontrés comme étant un cadre efficace pour effectuer des tâches de raisonnement visuel. Bien que ces réseaux modulaires aient été initialement conçus avec un certain degré de transparence du modèle, leurs performances sur des benchmarks de raisonnement visuel complexes étaient insuffisantes. Les approches actuelles de pointe ne fournissent pas un mécanisme efficace pour comprendre le processus de raisonnement. Dans cet article, nous comblons l'écart de performance entre les modèles interprétables et les méthodes actuelles de pointe en matière de raisonnement visuel. Nous proposons un ensemble de primitives de raisonnement visuel qui, lorsqu'elles sont combinées, se manifestent sous forme d'un modèle capable d'effectuer des tâches de raisonnement complexes d'une manière explicitement interprétable. La fidélité et l'interprétabilité des sorties des primitives permettent une capacité sans égale à diagnostiquer les forces et les faiblesses du modèle résultant. De manière critique, nous montrons que ces primitives sont hautement performantes, atteignant une précision d'état de l'art de 99,1 % sur le jeu de données CLEVR (Compositional Language and Elementary Visual Reasoning). Nous démontrons également que notre modèle est capable d'apprendre efficacement des représentations généralisées lorsque fourni avec une petite quantité de données contenant des attributs d'objets nouveaux. En utilisant la tâche de généralisation CoGenT (Composition and Generalization Test), nous montrons une amélioration supérieure à 20 points de pourcentage par rapport à l'état actuel de l'art.