HyperAIHyperAI

Command Palette

Search for a command to run...

LoSh : Réseau de prédiction conjointe long-courte pour la segmentation d'objets vidéo par référence

Linfeng Yuan Miaojing Shi Zijie Yue Qijun Chen

Résumé

La segmentation d'objets vidéo par référence (RVOS) vise à segmenter l'instance cible mentionnée par une expression textuelle donnée dans une séquence vidéo. L'expression textuelle contient généralement une description complexe de l'apparence de l'instance, de ses actions et de ses relations avec d'autres objets. Il est donc particulièrement difficile pour un modèle RVOS de capturer tous ces attributs de manière adéquate dans la vidéo ; en réalité, le modèle tend souvent à privilégier davantage les attributs visuels liés aux actions et aux relations. Cela peut conduire à des prédictions partielles ou même erronées du masque de l'instance cible. Pour résoudre ce problème, nous proposons de tirer parti d'une expression courte, centrée sur le sujet, extraite de l'expression textuelle initiale longue. Cette expression courte ne conserve que les informations liées à l'apparence de l'instance cible, permettant ainsi de diriger l'attention du modèle vers les caractéristiques d'apparence. Nous faisons prédire au modèle de manière conjointe en utilisant à la fois l'expression longue et l'expression courte, tout en intégrant un module d'attention croisée longue-courte pour interagir avec les caractéristiques combinées, ainsi qu'une perte de régularisation par intersection des prédictions longue-courte. En plus de l'amélioration apportée au niveau linguistique, nous introduisons également une perte de cohérence visuelle avant-arrière, qui utilise les flux optiques pour déformer les caractéristiques visuelles entre les cadres annotés et leurs voisins temporels afin d’assurer une cohérence temporelle. Notre méthode est construite sur deux pipelines d’état de l’art. Des expériences étendues sur les jeux de données A2D-Sentences, Refer-YouTube-VOS, JHMDB-Sentences et Refer-DAVIS17 démontrent des améliorations significatives. Le code est disponible à l’adresse suivante : https://github.com/LinfengYuan1997/Losh.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp