Détection de relations visuelles avec des réseaux relationnels profonds

Les relations entre les objets jouent un rôle crucial dans la compréhension des images. Bien que les techniques d'apprentissage profond aient connu un grand succès dans la reconnaissance d'objets individuels, le raisonnement sur les relations entre ces objets reste une tâche difficile. Les méthodes précédentes traitaient souvent ce problème comme un problème de classification, en considérant chaque type de relation (par exemple, « ride ») ou chaque phrase visuelle distincte (par exemple, « personne-monte-cheval ») comme une catégorie. Ces approches sont confrontées à des difficultés importantes dues à la grande diversité des apparences visuelles pour chaque type de relation ou au grand nombre de phrases visuelles distinctes. Nous proposons un cadre intégré pour aborder ce problème. Au cœur de ce cadre se trouve le Réseau Relationnel Profond, une nouvelle formulation conçue spécifiquement pour exploiter les dépendances statistiques entre les objets et leurs relations. Sur deux grands ensembles de données, la méthode proposée réalise des améliorations substantielles par rapport à l'état de l'art.