HyperAIHyperAI

Command Palette

Search for a command to run...

SSTVOS : Transformers Spatio-temporels Épars pour la Segmentation d'Objets Vidéo

Brendan Duke extsuperscript1,4,* Abdalla Ahmed extsuperscript4 Christian Wolf extsuperscript3 Parham Aarabi extsuperscript1,4 Graham W. Taylor extsuperscript2,5

Résumé

Dans cet article, nous présentons une approche basée sur les Transformers pour la segmentation d'objets dans les vidéos (VOS). Pour remédier aux problèmes d'accumulation d'erreurs et de scalabilité des travaux précédents, nous proposons une méthode VOS scalable et de bout en bout appelée Transformers Spatio-temporels Épars (SST). SST extrait des représentations par pixel pour chaque objet dans une vidéo en utilisant l'attention éparse sur les caractéristiques spatio-temporelles. Notre formulation basée sur l'attention pour la VOS permet à un modèle d'apprendre à porter son attention sur l'historique de plusieurs images et fournit un biais inductif approprié pour effectuer des calculs de correspondance nécessaires à la résolution de la segmentation de mouvement. Nous démontrons l'efficacité de l'approche basée sur l'attention par rapport aux réseaux récurrents dans le domaine spatio-temporel. Notre méthode obtient des résultats compétitifs sur YouTube-VOS et DAVIS 2017, avec une meilleure scalabilité et une plus grande robustesse face aux occultations par rapport à l'état de l'art. Le code est disponible à l'adresse suivante : https://github.com/dukebw/SSTVOS.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp