HyperAIHyperAI

Command Palette

Search for a command to run...

InstanceFormer : un cadre pour la segmentation d'instances vidéo en temps réel

Rajat Koner Tanveer Hannan Suprosanna Shit Sahand Sharifzadeh Matthias Schubert Thomas Seidl Volker Tresp

Résumé

Les approches récentes basées sur les transformateurs pour la segmentation d’instances vidéo hors ligne (VIS) obtiennent des résultats prometteurs et surpassent significativement les méthodes en ligne. Toutefois, leur dépendance à l’ensemble de la vidéo ainsi que la complexité computationnelle élevée induite par l’attention spatio-temporelle complète limitent leur application dans des scénarios réels, notamment le traitement de vidéos longues. Dans cet article, nous proposons un cadre efficace en ligne basé sur les transformateurs, à une seule phase, nommé InstanceFormer, particulièrement adapté aux vidéos longues et complexes. Nous introduisons trois composants novateurs pour modéliser les dépendances à court et à long terme ainsi que la cohérence temporelle. Premièrement, nous propageons les représentations, les localisations et les informations sémantiques des instances précédentes afin de capturer les changements à court terme. Deuxièmement, nous proposons une nouvelle attention croisée mémoire dans le décodeur, permettant au réseau d’accéder aux instances antérieures au sein d’une fenêtre temporelle donnée. Enfin, nous utilisons une perte contrastive temporelle pour imposer une cohérence dans la représentation d’une même instance à travers toutes les trames. L’attention mémoire et la cohérence temporelle sont particulièrement bénéfiques pour la modélisation des dépendances à longue portée, y compris dans des scénarios difficiles tels que l’occlusion. InstanceFormer surpasse largement les méthodes en ligne précédentes sur plusieurs jeux de données. Plus important encore, InstanceFormer dépasse même les approches hors ligne sur des jeux de données complexes et longs tels que YouTube-VIS-2021 et OVIS. Le code est disponible à l’adresse suivante : https://github.com/rajatkoner08/InstanceFormer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
InstanceFormer : un cadre pour la segmentation d'instances vidéo en temps réel | Articles | HyperAI