BootsTAP : Formation par bootstrap pour le suivi de tout point

Pour doter les modèles d'une compréhension plus approfondie de la physique et du mouvement, il est utile de leur permettre de percevoir comment les surfaces solides se déplacent et se déforment dans des scènes réelles. Cette capacité peut être formalisée sous la forme du suivi de tout point (Tracking-Any-Point, TAP), qui consiste à suivre n'importe quel point sur une surface solide dans une vidéo, potentiellement de manière dense dans l’espace et le temps. Les données d’étiquetage à grande échelle pour le TAP sont actuellement disponibles uniquement dans des simulations, qui offrent une variété limitée d’objets et de mouvements. Dans ce travail, nous démontrons comment des données réelles à grande échelle, non étiquetées et non curatrices, peuvent améliorer significativement un modèle TAP avec des modifications architecturales minimales, en utilisant un cadre auto-supervisé de type « élève-enseignant ». Nous atteignons des performances de pointe sur le benchmark TAP-Vid, dépassant largement les résultats précédents : par exemple, la performance sur TAP-Vid-DAVIS passe de 61,3 % à 67,4 %, et celle sur TAP-Vid-Kinetics de 57,2 % à 62,5 %. Pour des visualisations, rendez-vous sur notre page de projet à l’adresse https://bootstap.github.io/