HyperAIHyperAI

Command Palette

Search for a command to run...

Du nœud au graphe : raisonnement conjoint sur un graphe relationnel visuel-sémantique pour la détection zéro-shot

Xilin Chen Ruiping Wang Hui Nie

Résumé

La détection zéro-shot (ZSD), dont l’objectif est de localiser et de reconnaître des objets inconnus dans une scène complexe, repose habituellement sur l’information visuelle et sémantique des objets individuels. Toutefois, la compréhension scénique chez l’humain va au-delà de la reconnaissance d’objets isolés : les informations contextuelles entre plusieurs objets — telles que les relations visuelles (par exemple, des objets visuellement similaires) ou les relations sémantiques (par exemple, les co-occurrences) — s’avèrent essentielles à la compréhension de la scène visuelle. Dans ce travail, nous montrons que l’information contextuelle joue un rôle plus crucial dans la ZSD que dans la détection d’objets classique. Afin d’exploiter pleinement ces informations, nous proposons une nouvelle méthode end-to-end pour la ZSD, nommée GRaphAligningNetwork (GRAN), fondée sur une modélisation et un raisonnement graphiques, qui considère simultanément l’information visuelle et sémantique de plusieurs objets, plutôt que celle d’objets individuels. Plus précisément, nous formulons un Graphique Relationnel Visuel (VRG) et un Graphique Relationnel Sémantique (SRG), dans lesquels les nœuds représentent respectivement les objets présents dans l’image et les représentations sémantiques des classes, tandis que les arêtes codent la pertinence entre les nœuds dans chaque graphe. Pour caractériser l’effet mutuel entre les deux modalités, ces deux graphes sont fusionnés en un Graphique Relationnel Visuel-Sémantique Hétérogène (VSRG), où des traducteurs modaux sont conçus pour les deux sous-graphes afin de permettre la transformation des informations modales vers un espace commun pour la communication, et où un échange d’informations entre nœuds est imposé afin de raffiner leurs représentations. Des expériences approfondies sur le jeu de données MSCOCO démontrent l’avantage de notre méthode par rapport aux états de l’art, et une analyse qualitative confirme la pertinence de l’utilisation de l’information contextuelle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp