HyperAIHyperAI

Command Palette

Search for a command to run...

Référencé par la multimodalité : un Transformer temporel unifié pour la segmentation d'objets vidéo

Shilin Yan Renrui Zhang Ziyu Guo Wenchao Chen Wei Zhang Hongyang Li Yu Qiao Hao Dong Zhongjiang He Peng Gao

Résumé

Récemment, la segmentation d'objets vidéo (VOS) guidée par des signaux multimodaux, tels que le langage naturel et le son, a suscité un intérêt croissant tant dans l'industrie que dans le milieu académique. Cette tâche soulève des défis importants concernant l’alignement sémantique au sein des modalités et la correspondance visuelle entre les trames. Toutefois, les méthodes existantes adoptent généralement des architectures réseau séparées pour chaque modalité, tout en négligeant les interactions temporelles inter-trames avec des références. Dans cet article, nous proposons MUTR, un modèle de transformer temporel unifié multimodal pour la segmentation d'objets vidéo par référence. Pour la première fois, MUTR met en œuvre un cadre unifié basé sur une architecture de type DETR, permettant de segmenter des objets vidéo spécifiés par une référence textuelle ou auditive. Plus précisément, nous introduisons deux stratégies pour exploiter pleinement les relations temporelles entre les vidéos et les signaux multimodaux. Premièrement, avant l’entrée dans le transformer, une agrégation temporelle de bas niveau permet aux références multimodales de capturer des indices visuels à plusieurs échelles à partir de trames vidéo consécutives. Cette approche confère efficacement aux signaux textuels ou audio une connaissance temporelle, renforçant ainsi l’alignement sémantique entre les modalités. Deuxièmement, après le transformer, une interaction temporelle de haut niveau est mise en œuvre via une communication entre les caractéristiques inter-trames pour les embeddings d’objets, ce qui améliore la correspondance objet-par-objet au fil de la vidéo. Sur les jeux de données Ref-YouTube-VOS et AVSBench, utilisant respectivement des références textuelles et audio, MUTR atteint des gains de +4,2 % et +8,7 % en J&F par rapport aux méthodes de l’état de l’art, démontrant ainsi l’efficacité de notre approche pour la VOS multimodale unifiée. Le code source est disponible à l’adresse suivante : https://github.com/OpenGVLab/MUTR.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp