Détection de Relations Visuelles avec des A priori Linguistiques

Les relations visuelles capturent une grande variété d'interactions entre des paires d'objets dans les images (par exemple, « homme montant un vélo » et « homme poussant un vélo »). Par conséquent, l'ensemble des relations possibles est extrêmement vaste et il est difficile d'obtenir suffisamment d'exemples de formation pour toutes les relations possibles. En raison de cette limitation, les travaux précédents sur la détection des relations visuelles se sont concentrés sur la prédiction d'un petit nombre de relations. Bien que la plupart des relations soient rares, leurs objets (par exemple, « homme » et « vélo ») et leurs prédicats (par exemple, « monter » et « pousser ») apparaissent plus fréquemment de manière indépendante. Nous proposons un modèle qui utilise cette observation pour entraîner des modèles visuels pour les objets et les prédicats individuellement, puis les combine ultérieurement pour prédire plusieurs relations par image. Nous améliorons les travaux antérieurs en utilisant des a priori linguistiques issus d'embeddings sémantiques de mots pour affiner la probabilité d'une relation prédite. Notre modèle peut être étendu pour prédire des milliers de types de relations à partir de quelques exemples. De plus, nous localisons les objets dans les relations prédites sous forme de boîtes englobantes dans l'image. Nous démontrons également que la compréhension des relations peut améliorer la recherche d'images basée sur le contenu.