HyperAIHyperAI

Command Palette

Search for a command to run...

Segmentation d'instance vidéo bout-en-bout avec des Transformers

Yuqing Wang Zhaoliang Xu Xinlong Wang Chunhua Shen Baoshan Cheng Hao Shen Huaxia Xia

Résumé

La segmentation d'instances vidéo (VIS) est une tâche qui consiste à classifier, segmenter et suivre simultanément les instances d'objets d'intérêt dans une séquence vidéo. Les méthodes récentes développent généralement des pipelines sophistiqués pour aborder cette tâche. Dans cet article, nous proposons un nouveau cadre de segmentation d'instances vidéo fondé sur les Transformers, appelé VisTR, qui traite la tâche de VIS comme un problème direct de décodage parallèle en série, en bout à bout. Étant donné une séquence vidéo composée de plusieurs images comme entrée, VisTR produit directement, dans l'ordre, la séquence de masques correspondant à chaque instance présente dans la vidéo. Au cœur de cette approche réside une nouvelle stratégie efficace de correspondance et de segmentation des séquences d'instances, qui supervise et segmente les instances au niveau de la séquence dans sa globalité. VisTR adopte une perspective unifiée pour la segmentation d'instances et le suivi, basée sur l'apprentissage de similarité, ce qui simplifie considérablement l'ensemble du pipeline et le distingue fortement des approches existantes. Sans recourir à des améliorations superflues, VisTR atteint la vitesse la plus élevée parmi tous les modèles existants de VIS, tout en obtenant le meilleur résultat parmi les méthodes utilisant un seul modèle sur le jeu de données YouTube-VIS. Pour la première fois, nous démontrons un cadre de segmentation d'instances vidéo plus simple et plus rapide, fondé sur les Transformers, tout en atteignant une précision compétitive. Nous espérons que VisTR inspirera de futures recherches dans le domaine du compréhension vidéo.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp