HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur sensible au contexte local-global pour la segmentation vidéo guidée par le langage

Chen Liang Wenguan Wang Tianfei Zhou Jiaxu Miao Yawei Luo Yi Yang

Résumé

Nous explorons la tâche de segmentation vidéo guidée par le langage (LVS). Les algorithmes précédents s'appuient principalement sur des réseaux de neurones convolutifs 3D (3D CNN) pour apprendre une représentation vidéo, mais peinent à capturer le contexte à long terme et sont sujets à des désalignements entre le visuel et le linguistique. À cet égard, nous proposons Locater (Transformer sensible au contexte local-global), une architecture améliorée du Transformer munie d'une mémoire finie, permettant d'interroger l'ensemble de la vidéo de manière efficace à l'aide d'une expression linguistique. Cette mémoire est conçue avec deux composants : l'un pour conserver de manière persistante le contenu global de la vidéo, et l'autre pour rassembler dynamiquement le contexte temporel local ainsi que l'historique de segmentation. Grâce au contexte local-global mémorisé et au contenu spécifique de chaque trame, Locater comprend de manière holistique et flexible l'expression linguistique, en générant pour chaque trame un vecteur de requête adaptatif. Ce vecteur est ensuite utilisé pour interroger la trame correspondante afin de produire le masque de segmentation. La mémoire permet également à Locater de traiter les vidéos avec une complexité temporelle linéaire et une taille mémoire constante, contrairement au calcul d'attention auto-attention de type Transformer, qui croît quadratiquement avec la longueur de la séquence. Pour évaluer de manière approfondie la capacité de localisation visuelle des modèles LVS, nous introduisons un nouveau jeu de données LVS, A2D-S+, construit à partir du jeu de données A2D-S mais posant des défis accrue dans la discrimination entre objets similaires. Des expériences menées sur trois jeux de données LVS, ainsi que sur notre A2D-S+, montrent que Locater surpasser les états de l'art précédents. En outre, nous avons remporté la première place dans la piste de segmentation d'objets vidéo référentiels de la 3e édition du Défi de segmentation d'objets vidéo à grande échelle, où Locater a servi de fondement à la solution gagnante. Notre code et le jeu de données sont disponibles à l'adresse suivante : https://github.com/leonnnop/Locater


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp