HyperAIHyperAI

Command Palette

Search for a command to run...

Interaction spatio-temporelle pontée par le langage pour la segmentation d'objets vidéo par référence

Zihan Ding Tianrui Hui Junshi Huang Xiaoming Wei Jizhong Han Si Liu

Résumé

La segmentation d'objets vidéo par référence vise à prédire les étiquettes du premier plan pour les objets mentionnés par des expressions linguistiques naturelles dans des vidéos. Les méthodes précédentes s'appuient soit sur des ConvNets 3D, soit intègrent des ConvNets 2D supplémentaires en tant qu'encodeurs afin d'extraire des caractéristiques spatio-temporelles mixtes. Toutefois, ces approches souffrent de désalignement spatial ou de faux distracteurs, dus à une interaction spatio-temporelle tardive et implicite qui se produit lors de la phase de décodage. Pour surmonter ces limitations, nous proposons un module de transfert duplex guidé par le langage (LBDT), qui utilise le langage comme pont intermédiaire afin d’assurer une interaction spatio-temporelle explicite et adaptative plus tôt, durant la phase d’encodage. Plus précisément, une attention intermodale est établie entre l’encodeur temporel, les mots de référence et l’encodeur spatial, permettant ainsi d’agréger et de transférer efficacement les informations pertinentes au langage, relatives à la motion et à l’apparence. En outre, nous introduisons également un module de activation canal-bilaterale (BCA) lors de la phase de décodage, afin de déséliminer davantage le bruit et de renforcer les caractéristiques spatio-temporelles cohérentes grâce à une activation canal par canal. Des expériences étendues montrent que notre méthode atteint de nouveaux états de l’art sur quatre benchmarks populaires, avec des gains absolus de 6,8 % et 6,9 % en AP sur A2D Sentences et J-HMDB Sentences respectivement, tout en consommant environ 7 fois moins de ressources computationnelles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp