HyperAIHyperAI
il y a 11 jours

ClawCraneNet : Exploiter les relations au niveau des objets pour la segmentation vidéo basée sur le texte

Chen Liang, Yu Wu, Yawei Luo, Yi Yang
ClawCraneNet : Exploiter les relations au niveau des objets pour la segmentation vidéo basée sur le texte
Résumé

La segmentation vidéo basée sur le texte est une tâche difficile qui consiste à segmenter les objets mentionnés dans des vidéos à l’aide d’expressions linguistiques naturelles. Elle requiert essentiellement une compréhension sémantique fine et une perception détaillée des vidéos. Les méthodes existantes introduisent la représentation linguistique dans les modèles de segmentation de manière descendante (bottom-up), limitant l’interaction entre vision et langage aux champs réceptifs locaux des réseaux convolutionnels (ConvNets). Nous affirmons que cette interaction n’est pas pleinement réalisée, car le modèle peine à établir des relations au niveau des régions à partir d’observations partielles, ce qui contredit la logique des expressions de référence en langage naturel. En réalité, les humains décrivent généralement un objet cible en faisant référence à d’autres objets, une description qui ne peut être pleinement comprise sans avoir vu l’intégralité de la vidéo. Pour résoudre ce problème, nous proposons une nouvelle approche ascendante (top-down), inspirée du processus humain de segmentation guidée par le langage. Nous identifions d’abord tous les objets candidats présents dans la vidéo, puis sélectionnons l’objet référencé en interprétant les relations entre ces objets de haut niveau. Trois types de relations au niveau des objets sont étudiés afin d’assurer une compréhension précise des relations : relation spatiale, relation sémantique guidée par le texte, et relation temporelle. Des expériences étendues sur les jeux de données A2D Sentences et J-HMDB Sentences montrent que notre méthode surpasser largement les approches de pointe. Des résultats qualitatifs confirment également que nos résultats sont plus explicables.

ClawCraneNet : Exploiter les relations au niveau des objets pour la segmentation vidéo basée sur le texte | Articles de recherche récents | HyperAI