Apprentissage par renforcement à structure de variation profonde pour la détection des relations visuelles et des attributs

Malgré les progrès réalisés dans les tâches de perception visuelle telles que la classification et la détection d'images, les ordinateurs peinent encore à comprendre l'interdépendance des objets dans une scène globale, par exemple, les relations entre les objets ou leurs attributs. Les méthodes existantes ignorent souvent les indices de contexte global qui capturent les interactions entre différentes instances d'objets et ne reconnaissent qu'un nombre limité de types en formant individuellement des détecteurs pour toutes les relations possibles. Pour capturer cette interdépendance globale, nous proposons un cadre de Reinforcement Learning structuré par variation (VRL) profond pour découvrir séquentiellement les relations et attributs des objets dans l'image entière. Tout d'abord, un graphe dirigé d'actions sémantiques est construit en utilisant des a priori linguistiques afin de fournir une représentation riche et concise des corrélations sémantiques entre les catégories d'objets, les prédicats et les attributs. Ensuite, nous utilisons une traversée structurée par variation sur le graphe d'actions pour construire un ensemble d'actions petit et adaptatif à chaque étape, basé sur l'état actuel et les actions historiques. Plus particulièrement, un schéma de fouille d'objets conscient de l'ambiguïté est utilisé pour résoudre l'ambiguïté sémantique entre les catégories d'objets que le détecteur d'objets échoue à distinguer.Nous effectuons ensuite des prédictions séquentielles à l'aide d'un cadre de Reinforcement Learning profond (RL), intégrant des indices de contexte global et des plongements sémantiques des phrases précédemment extraites dans le vecteur d'état. Nos expériences sur le jeu de données Visual Relationship Detection (VRD) et sur le grand jeu de données Visual Genome valident la supériorité du VRL, qui peut obtenir des résultats de détection nettement meilleurs sur des jeux de données impliquant plusieurs milliers de types de relations et d'attributs. Nous montrons également que le VRL est capable de prédire des types non vus intégrés dans notre graphe d'actions en apprenant les corrélations sur les nœuds partagés du graphe.