Détection de Relations Visuelles avec la Distillation de Connaissances Linguistiques Internes et Externes

La compréhension des relations visuelles implique l'identification du sujet, de l'objet et d'un prédicat les reliant. Nous exploitons les fortes corrélations entre le prédicat et le couple (sujet, objet) (à la fois sémantiquement et spatialement) pour prédire les prédicats conditionnellement aux sujets et aux objets. La modélisation conjointe des trois entités reflète plus précisément leurs relations, mais complique l'apprentissage car l'espace sémantique des relations visuelles est vaste et les données d'entraînement sont limitées, en particulier pour les relations à queue longue qui ont peu d'instances. Pour surmonter cette difficulté, nous utilisons des connaissances issues des statistiques linguistiques pour régulariser l'apprentissage du modèle visuel. Nous acquérons ces connaissances en exploitant à la fois les annotations d'entraînement (connaissances internes) et des textes disponibles publiquement, par exemple Wikipedia (connaissances externes), en calculant la distribution de probabilité conditionnelle d'un prédicat étant donné un couple (sujet, objet). Ensuite, nous intégrons ces connaissances dans un modèle profond afin d'améliorer sa généralisation. Nos résultats expérimentaux sur les jeux de données Visual Relationship Detection (VRD) et Visual Genome indiquent que grâce à cette distillation de connaissances linguistiques, notre modèle dépasse significativement les méthodes de pointe actuelles, notamment lorsqu'il s'agit de prédire des relations inconnues (par exemple, le rappel est passé de 8,45 % à 19,17 % sur l'ensemble de test zero-shot de VRD).