HyperAIHyperAI
il y a 2 mois

Génération de graphes de scène à partir d'objets, de phrases et de légendes de régions

Yikang Li; Wanli Ouyang; Bolei Zhou; Kun Wang; Xiaogang Wang
Génération de graphes de scène à partir d'objets, de phrases et de légendes de régions
Résumé

La détection d'objets, la génération de graphes de scène et la légendage de régions, qui sont trois tâches de compréhension de scène à différents niveaux sémantiques, sont étroitement liées : les graphes de scène sont générés à partir des objets détectés dans une image, en prédiction de leurs relations deux à deux, tandis que le légendage de régions fournit une description linguistique des objets, de leurs attributs, relations et autres informations contextuelles. Dans cette étude, afin d'exploiter les connexions mutuelles entre les niveaux sémantiques, nous proposons un nouveau modèle de réseau neuronal appelé Réseau de Description Multiniveau de Scène (désigné par MSDN), capable de résoudre conjointement ces trois tâches visuelles d'une manière bout-à-bout. Les objets, les phrases et les régions légendées sont d'abord alignés avec un graphe dynamique basé sur leurs connexions spatiales et sémantiques. Ensuite, une structure d'affinement des caractéristiques est utilisée pour transmettre des messages entre les trois niveaux des tâches sémantiques via ce graphe. Nous évaluons le modèle appris sur trois tâches et montrons que l'apprentissage conjoint entre ces trois tâches grâce à notre méthode proposée peut apporter des améliorations mutuelles par rapport aux modèles précédents. En particulier, pour la tâche de génération de graphes de scène, notre méthode proposée surpassent la méthode actuelle la plus performante avec une marge supérieure à 3%.

Génération de graphes de scène à partir d'objets, de phrases et de légendes de régions | Articles de recherche récents | HyperAI