HyperAIHyperAI
il y a 11 jours

TAPIR : Suivi de tout point par initialisation par image et raffinement temporel

Carl Doersch, Yi Yang, Mel Vecerik, Dilara Gokay, Ankush Gupta, Yusuf Aytar, Joao Carreira, Andrew Zisserman
TAPIR : Suivi de tout point par initialisation par image et raffinement temporel
Résumé

Nous présentons un nouveau modèle de suivi de tout point (Tracking Any Point, TAP) capable de suivre efficacement tout point interrogé sur toute surface physique au cours d'une séquence vidéo. Notre approche repose sur deux étapes : (1) une étape de correspondance, qui localise indépendamment, sur chaque autre trame, une correspondance candidate adaptée au point interrogé ; et (2) une étape de raffinement, qui met à jour à la fois la trajectoire et les caractéristiques du point interrogé en fonction des corrélations locales. Le modèle ainsi obtenu dépasse significativement toutes les méthodes de référence sur le benchmark TAP-Vid, avec une amélioration absolue d’environ 20 % en moyenne du Jaccard (AJ) sur DAVIS. Ce modèle permet une inférence rapide sur des séquences vidéo longues et à haute résolution. Sur une GPU moderne, notre implémentation est capable de suivre les points à une vitesse supérieure à celle du temps réel, et peut être facilement étendue à des vidéos à résolution encore plus élevée. À partir des trajectoires de haute qualité extraites à partir d’un grand jeu de données, nous démontrons un modèle de diffusion préliminaire capable de générer des trajectoires à partir d’images statiques, permettant ainsi des animations plausibles. Des visualisations, le code source et les modèles pré-entraînés sont disponibles sur notre page de projet.

TAPIR : Suivi de tout point par initialisation par image et raffinement temporel | Articles de recherche récents | HyperAI