HyperAIHyperAI
il y a 11 jours

Réseau modulaire d'acteur et d'action pour la segmentation vidéo basée sur le texte

Jianhua Yang, Yan Huang, Kai Niu, Linjiang Huang, Zhanyu Ma, Liang Wang
Réseau modulaire d'acteur et d'action pour la segmentation vidéo basée sur le texte
Résumé

La segmentation vidéo basée sur le texte vise à segmenter un acteur dans des séquences vidéo en spécifiant cet acteur ainsi que l’action qu’il réalise à l’aide d’une requête textuelle. Les méthodes précédentes échouent à aligner de manière fine et explicite le contenu vidéo avec la requête textuelle selon l’acteur et son action, en raison du problème de symétrie sémantique. Cette symétrie sémantique signifie que les deux modalités (vidéo et texte) contiennent des quantités différentes d’information sémantique durant le processus de fusion multi-modale. Pour atténuer ce problème, nous proposons un nouveau réseau modulaire dédié à l’acteur et à l’action, qui localise séparément l’acteur et son action dans deux modules distincts. Plus précisément, nous apprenons d’abord le contenu pertinent à l’acteur et à l’action à partir de la vidéo et de la requête textuelle, puis établissons une correspondance symétrique entre ces deux éléments afin de localiser le tube cible. Ce tube cible contient l’acteur et l’action souhaités, qu’on alimente ensuite dans un réseau convolutif entièrement connecté pour prédire les masques de segmentation de l’acteur. Notre méthode établit également des associations entre objets à travers plusieurs trames grâce au mécanisme proposé d’agrégation de propositions temporelles. Cela permet à notre méthode de segmenter efficacement la vidéo tout en préservant la cohérence temporelle des prédictions. Le modèle entier permet un apprentissage conjoint de la correspondance acteur-action et de la segmentation, et atteint des performances de pointe tant pour la segmentation sur une seule image que pour la segmentation complète de la vidéo sur les jeux de données A2D Sentences et J-HMDB Sentences.

Réseau modulaire d'acteur et d'action pour la segmentation vidéo basée sur le texte | Articles de recherche récents | HyperAI