HyperAIHyperAI

Command Palette

Search for a command to run...

Affronter les défis de la génération de graphes scéniques à l’aide d’interactions locale-vers-global

Sangmin Woo Junhyug Noh Kangil Kim

Résumé

Dans ce travail, nous explorons de nouveaux aspects des défis fondamentaux posés par la tâche de génération de graphes scènes (Scene Graph Generation, SGG). Une analyse quantitative et qualitative du jeu de données Visual Genome suggère trois observations clés : 1) l’ambiguïté : même lorsque les relations entre objets partagent les mêmes entités (ou prédicats), elles peuvent ne pas être visuellement ni sémantiquement similaires ; 2) l’asymétrie : bien que la direction intrinsèque d’une relation soit fondamentale, elle n’a pas été suffisamment prise en compte dans les travaux antérieurs ; 3) les contextes d’ordre supérieur : exploiter les identités de certains éléments du graphe peut améliorer la précision de la génération des graphes scènes. Inspirés par cette analyse, nous proposons un nouveau cadre pour la SGG, appelé Local-to-Global Interaction Networks (LOGIN). Localement, les interactions captent l’essence des relations entre trois instances : sujet, objet et arrière-plan, tout en intégrant explicitement une conscience de la direction en imposant un ordre d’entrée spécifique pour le sujet et l’objet. Globalement, les interactions encodent les contextes entre tous les composants du graphe (c’est-à-dire les nœuds et les arêtes). Enfin, une fonction de perte Attract & Repel est utilisée pour affiner la distribution des embeddings des prédicats. Par conception, notre cadre permet de prédire le graphe scène de manière ascendante, en tirant parti de la complémentarité potentielle entre les éléments. Pour quantifier le degré de conscience de la direction relationnelle par LOGIN, nous introduisons également une nouvelle tâche diagnostique, nommée Classification des Relations Bidirectionnelles (Bidirectional Relationship Classification, BRC). Les résultats expérimentaux montrent que LOGIN réussit à distinguer efficacement la direction relationnelle par rapport aux méthodes existantes (dans la tâche BRC), tout en atteignant des performances de pointe sur le benchmark Visual Genome (dans la tâche SGG).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp