HyperAIHyperAI

Command Palette

Search for a command to run...

Un Segmenteur Vidéo Simple par le Suivi d'Objets le long de Trajectoires Axiales

Ju He; Qihang Yu; Inkyu Shin; Xueqing Deng; Alan Yuille; Xiaohui Shen; Liang-Chieh Chen

Résumé

La segmentation vidéo nécessite une segmentation et un suivi d'objets cohérents dans le temps. En raison de la dépendance quadratique par rapport à la taille de l'entrée, l'application directe de l'auto-attention à la segmentation vidéo avec des caractéristiques d'entrée en haute résolution pose des défis importants, entraînant souvent une capacité mémoire GPU insuffisante. Par conséquent, les segmenteurs vidéo modernes s'étendent soit à partir d'un segmenteur d'image sans incorporer aucune attention temporelle, soit recourent à une attention spatio-temporelle par fenêtre de manière naïve. Dans ce travail, nous présentons Axial-VS, un cadre général et simple qui améliore les segmenteurs vidéo en suivant les objets le long de trajectoires axiales. Ce cadre aborde la segmentation vidéo à travers deux sous-tâches : la segmentation court terme au sein d'une séquence (clip) et le suivi à long terme entre différentes séquences. Dans la première étape, Axial-VS augmente un segmenteur vidéo basé sur des séquences préexistantes grâce à l'attention axiale proposée, en suivant séquentiellement les objets le long des trajectoires verticales et horizontales au sein d'une séquence, ce qui améliore la cohérence temporelle en capturant les trajectoires de mouvement. La décomposition axiale réduit considérablement la complexité computationnelle pour les caractéristiques denses et surpasse l'attention spatio-temporelle par fenêtre en termes de qualité de segmentation. Dans la deuxième étape, nous utilisons davantage l'attention axiale aux requêtes d'objets dans les segmenteurs basés sur des séquences, qui sont apprises pour encoder des informations sur les objets, facilitant ainsi le suivi des objets entre différentes séquences et assurant une segmentation cohérente tout au long de la vidéo. Sans artifices superflus, Axial-VS présente des résultats de pointe sur des benchmarks de segmentation vidéo, soulignant son efficacité pour surmonter les limitations des segmenteurs vidéo modernes basés sur des séquences. Le code source et les modèles sont disponibles à l'adresse suivante : https://github.com/TACJu/Axial-VS.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp