il y a 6 mois

Résumé

La segmentation vidéo basée sur le texte vise à segmenter un acteur dans des séquences vidéo en spécifiant cet acteur ainsi que l’action qu’il réalise à l’aide d’une requête textuelle. Les méthodes précédentes échouent à aligner de manière fine et explicite le contenu vidéo avec la requête textuelle selon l’acteur et son action, en raison du problème de symétrie sémantique. Cette symétrie sémantique signifie que les deux modalités (vidéo et texte) contiennent des quantités différentes d’information sémantique durant le processus de fusion multi-modale. Pour atténuer ce problème, nous proposons un nouveau réseau modulaire dédié à l’acteur et à l’action, qui localise séparément l’acteur et son action dans deux modules distincts. Plus précisément, nous apprenons d’abord le contenu pertinent à l’acteur et à l’action à partir de la vidéo et de la requête textuelle, puis établissons une correspondance symétrique entre ces deux éléments afin de localiser le tube cible. Ce tube cible contient l’acteur et l’action souhaités, qu’on alimente ensuite dans un réseau convolutif entièrement connecté pour prédire les masques de segmentation de l’acteur. Notre méthode établit également des associations entre objets à travers plusieurs trames grâce au mécanisme proposé d’agrégation de propositions temporelles. Cela permet à notre méthode de segmenter efficacement la vidéo tout en préservant la cohérence temporelle des prédictions. Le modèle entier permet un apprentissage conjoint de la correspondance acteur-action et de la segmentation, et atteint des performances de pointe tant pour la segmentation sur une seule image que pour la segmentation complète de la vidéo sur les jeux de données A2D Sentences et J-HMDB Sentences.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Segmentation Sémantique

Reconnaissance D'action

Multimodal

Vision Par Ordinateur

Tâche

Jianhua Yang Yan Huang Kai Niu Linjiang Huang Zhanyu Ma Liang Wang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Segmentation Sémantique

Reconnaissance D'action

Multimodal

Vision Par Ordinateur

Tâche

Jianhua Yang Yan Huang Kai Niu Linjiang Huang Zhanyu Ma Liang Wang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Réseau modulaire d'acteur et d'action pour la segmentation vidéo basée sur le texte | Articles | HyperAI

Command Palette

Réseau modulaire d'acteur et d'action pour la segmentation vidéo basée sur le texte

Jianhua Yang Yan Huang Kai Niu Linjiang Huang Zhanyu Ma Liang Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réseau modulaire d'acteur et d'action pour la segmentation vidéo basée sur le texte

Jianhua Yang Yan Huang Kai Niu Linjiang Huang Zhanyu Ma Liang Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réseau modulaire d'acteur et d'action pour la segmentation vidéo basée sur le texte

Jianhua Yang Yan Huang Kai Niu Linjiang Huang Zhanyu Ma Liang Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters