Détection de relations visuelles basée sur le classement structural profond
La détection de relations visuelles vise à décrire les interactions entre paires d'objets. Contrairement aux tâches d'apprentissage individuel des objets, le nombre de relations possibles est beaucoup plus élevé, ce qui rend difficile l'exploration uniquement à partir de l'apparence visuelle des objets. En outre, en raison de la limitation des efforts humains, les annotations des relations visuelles sont généralement incomplètes, ce qui accroît la difficulté d'entraînement et d'évaluation des modèles. Dans cet article, nous proposons un nouveau cadre, appelé Deep Structural Ranking, pour la détection de relations visuelles. Pour compléter la capacité de représentation de l'apparence visuelle, nous intégrons plusieurs indices pour prédire les relations présentes dans une image d'entrée. En outre, nous concevons une nouvelle fonction objectif de classement en imposant que les relations annotées obtiennent des scores de pertinence plus élevés. Contrairement aux travaux antérieurs, notre méthode permet à la fois de favoriser la co-occurrence des relations et de réduire le problème d'incomplétude. Les résultats expérimentaux montrent que notre approche surpasse l'état de l'art sur deux jeux de données largement utilisés. Nous démontrons également son avantage dans la détection de relations « zero-shot ».