Apprendre à composer des structures d'arbre dynamiques pour les contextes visuels

Nous proposons de composer des structures d'arbre dynamiques qui placent les objets dans une image dans un contexte visuel, facilitant les tâches de raisonnement visuel telles que la génération de graphes de scène et les questions-réponses visuelles (Visual Q&A). Notre modèle d'arbre de contexte visuel, appelé VCTree, présente deux avantages clés par rapport aux représentations structurées d'objets existantes, notamment les chaînes et les graphes entièrement connectés : 1) L'arbre binaire efficace et expressif encode les relations parallèles/hiérarchiques inhérentes entre les objets, par exemple, « vêtements » et « pantalons » apparaissent généralement ensemble et appartiennent à « personne » ; 2) La structure dynamique varie d'une image à l'autre et d'une tâche à l'autre, permettant un passage de messages plus spécifique au contenu/tâche entre les objets. Pour construire un VCTree, nous avons conçu une fonction de score qui calcule la validité dépendante de la tâche entre chaque paire d'objets, et l'arbre est la version binaire de l'arbre couvrant maximal issu de la matrice de scores. Ensuite, les contextes visuels sont encodés par un TreeLSTM bidirectionnel et décodés par des modèles spécifiques à la tâche. Nous avons développé une procédure d'apprentissage hybride qui intègre l'apprentissage supervisé pour la tâche finale et l'apprentissage par renforcement de la structure arborescente, où le résultat d'évaluation du premier sert de critique auto-adaptative pour l'exploration structurale du second. Les résultats expérimentaux sur deux benchmarks nécessitant un raisonnement contextualisé montrent que VCTree surpassent les résultats actuels de pointe tout en découvrant des structures de contexte visuel interprétables : Visual Genome pour la génération de graphes de scène et VQA2.0 pour les questions-réponses visuelles.