Réseau de Plongement Visuel pour la Détection des Relations Visuelles

Les relations visuelles, telles que « personne sur un vélo » et « vélo à côté d'une voiture », offrent une compréhension complète de la scène représentée dans une image et ont déjà démontré leur grande utilité pour relier la vision par ordinateur et le langage naturel. Cependant, en raison de la complexité combinatoire difficile à modéliser des triplets relationnels sujet-prédicat-objet, très peu de travaux ont été consacrés à la localisation et à la prédiction des relations visuelles. Inspirés par les récentes avancées dans l'apprentissage de représentations relationnelles des bases de connaissances et des réseaux de détection d'objets par convolution, nous proposons un réseau d'embedding visuel (VTransE) pour la détection de relations visuelles. VTransE place les objets dans un espace relationnel de faible dimension où une relation peut être modélisée comme une simple translation vectorielle, c'est-à-dire sujet + prédicat $\approx$ objet. Nous introduisons une nouvelle couche d'extraction de caractéristiques qui permet le transfert de connaissances entre objets et relations de manière entièrement convolutive, supportant ainsi l'entraînement et l'inférence en un seul passage avant/arrière. À notre connaissance, VTransE est le premier réseau de détection relationnelle end-to-end. Nous montrons l'efficacité de VTransE par rapport aux autres méthodes de pointe sur deux grands ensembles de données : Visual Relationship et Visual Genome. Il est important de noter que même si VTransE est un modèle purement visuel, il reste compétitif face au modèle multimodal de Lu avec des a priori linguistiques.