Du nœud au graphe : raisonnement conjoint sur un graphe relationnel visuel-sémantique pour la détection zéro-shot

La détection zéro-shot (ZSD), dont l’objectif est de localiser et de reconnaître des objets inconnus dans une scène complexe, repose habituellement sur l’information visuelle et sémantique des objets individuels. Toutefois, la compréhension scénique chez l’humain va au-delà de la reconnaissance d’objets isolés : les informations contextuelles entre plusieurs objets — telles que les relations visuelles (par exemple, des objets visuellement similaires) ou les relations sémantiques (par exemple, les co-occurrences) — s’avèrent essentielles à la compréhension de la scène visuelle. Dans ce travail, nous montrons que l’information contextuelle joue un rôle plus crucial dans la ZSD que dans la détection d’objets classique. Afin d’exploiter pleinement ces informations, nous proposons une nouvelle méthode end-to-end pour la ZSD, nommée GRaphAligningNetwork (GRAN), fondée sur une modélisation et un raisonnement graphiques, qui considère simultanément l’information visuelle et sémantique de plusieurs objets, plutôt que celle d’objets individuels. Plus précisément, nous formulons un Graphique Relationnel Visuel (VRG) et un Graphique Relationnel Sémantique (SRG), dans lesquels les nœuds représentent respectivement les objets présents dans l’image et les représentations sémantiques des classes, tandis que les arêtes codent la pertinence entre les nœuds dans chaque graphe. Pour caractériser l’effet mutuel entre les deux modalités, ces deux graphes sont fusionnés en un Graphique Relationnel Visuel-Sémantique Hétérogène (VSRG), où des traducteurs modaux sont conçus pour les deux sous-graphes afin de permettre la transformation des informations modales vers un espace commun pour la communication, et où un échange d’informations entre nœuds est imposé afin de raffiner leurs représentations. Des expériences approfondies sur le jeu de données MSCOCO démontrent l’avantage de notre méthode par rapport aux états de l’art, et une analyse qualitative confirme la pertinence de l’utilisation de l’information contextuelle.