HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur Vision Économique en Temps pour la Segmentations d'Instances Vidéo

Shusheng Yang Xinggang Wang Yu Li Yuxin Fang Jiemin Fang Wenyu Liu Xun Zhao Ying Shan

Résumé

Récemment, les vision transformers ont connu un succès considérable sur les tâches de reconnaissance visuelle au niveau des images. Afin de modéliser efficacement et efficacement l'information temporelle cruciale présente dans une séquence vidéo, nous proposons un Vision Transformer efficace dans le temps (TeViT) pour la segmentation d'instances vidéo (VIS). Contrairement aux méthodes précédentes basées sur les transformateurs pour la VIS, TeViT est quasi libre de convolution, comprenant un noyau de transformateur et une tête de segmentation d'instances vidéo basée sur des requêtes. À l'étape du noyau, nous introduisons un mécanisme de décalage de messager quasi sans paramètre pour une fusion précoce du contexte temporel. À l'étape de la tête, nous proposons un mécanisme d'interaction spatio-temporelle des requêtes partagées entre paramètres afin d'établir une correspondance un-à-un entre les instances vidéo et les requêtes. Ainsi, TeViT exploite pleinement à la fois les informations de contexte temporel au niveau des trames et au niveau des instances, tout en offrant une capacité de modélisation temporelle puissante avec un coût computationnel négligeable. Sur trois benchmarks de VIS largement utilisés — YouTube-VIS-2019, YouTube-VIS-2021 et OVIS — TeViT atteint des résultats de pointe tout en maintenant une vitesse d'inférence élevée, par exemple 46,6 AP à 68,9 FPS sur YouTube-VIS-2019. Le code est disponible à l'adresse suivante : https://github.com/hustvl/TeViT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp