HyperAIHyperAI

Command Palette

Search for a command to run...

Réseau d'attention croisée asymétrique guidée pour la segmentation vidéo d'acteur et d'action à partir d'une requête en langage naturel

Dacheng Tao Junchi Yan Cheng Deng Hao Wang

Résumé

La segmentation d’acteurs et d’actions dans des vidéos à partir d’une requête en langage naturel vise à segmenter sélectivement l’acteur et son action dans une vidéo en se basant sur une description textuelle d’entrée. Les travaux antérieurs se concentrent principalement sur l’apprentissage d’une corrélation simple entre deux types de caractéristiques hétérogènes — visuelles et linguistiques — via des convolutions dynamiques ou une classification entièrement convolutive. Toutefois, ces approches négligent les variations linguistiques présentes dans les requêtes en langage naturel et éprouvent des difficultés à modéliser le contexte visuel global, ce qui entraîne des performances de segmentation insatisfaisantes. Pour remédier à ces limites, nous proposons un réseau d’attention croisée asymétrique guidée par la cross-attention pour la segmentation d’acteurs et d’actions à partir de requêtes en langage naturel. Plus précisément, nous introduisons un réseau d’attention croisée asymétrique composé de deux modules : une attention langagière guidée par la vision, qui réduit les variations linguistiques de la requête d’entrée, et une attention visuelle guidée par le langage, qui intègre un contexte visuel global orienté vers la requête. En outre, nous adoptons un schéma de fusion multi-résolution ainsi qu’une fonction de perte pondérée pour les pixels d’avant-plan et de fond afin d’obtenir une amélioration supplémentaire des performances. Des expériences étendues sur les jeux de données Actor-Action Dataset Sentences et J-HMDB Sentences montrent que notre méthode propose une performance nettement supérieure aux approches les plus récentes de l’état de l’art.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Réseau d'attention croisée asymétrique guidée pour la segmentation vidéo d'acteur et d'action à partir d'une requête en langage naturel | Articles | HyperAI