HyperAIHyperAI

Command Palette

Search for a command to run...

Encodage positionnel relatif polaire pour la segmentation vidéo-langage

Qi Tian Fei Wu Lingxi Xie Ke Ning

Résumé

Dans cet article, nous abordons une tâche exigeante appelée segmentation vidéo-langage. Étant donné une vidéo et une phrase écrite dans un langage naturel, l’objectif consiste à segmenter dans les cadres vidéo l’objet ou l’acteur décrit par la phrase. Pour dénoter précisément un objet cible, la phrase fournie fait généralement référence à plusieurs attributs, tels que des objets proches liés par des relations spatiales, par exemple. Dans cet article, nous proposons un mécanisme novateur appelé Encodage Positionnel Relatif Polaire (PRPE), qui représente les relations spatiales de manière « linguistique », c’est-à-dire en termes de direction et de portée. Les caractéristiques issues de la phrase peuvent interagir de manière plus directe avec les embeddings positionnels afin d’extraire les relations positionnelles relatives implicites. Nous proposons également des fonctions paramétriques pour ces embeddings positionnels, afin de s’adapter à des directions et des portées réelles (à valeurs réelles). Grâce au PRPE, nous concevons un module fondamental pour la fusion vision-langage appelé Module d’Attention Polaire (PAM). Notre méthode dépasse de manière significative la meilleure méthode précédente, avec une amélioration absolue de 11,4 % en termes de mAP sur le jeu de données exigeant A2D Sentences. Elle obtient également des performances compétitives sur le jeu de données J-HMDB Sentences.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp