HyperAIHyperAI

Command Palette

Search for a command to run...

BootsTAP : Formation par bootstrap pour le suivi de tout point

Résumé

Pour doter les modèles d'une compréhension plus approfondie de la physique et du mouvement, il est utile de leur permettre de percevoir comment les surfaces solides se déplacent et se déforment dans des scènes réelles. Cette capacité peut être formalisée sous la forme du suivi de tout point (Tracking-Any-Point, TAP), qui consiste à suivre n'importe quel point sur une surface solide dans une vidéo, potentiellement de manière dense dans l’espace et le temps. Les données d’étiquetage à grande échelle pour le TAP sont actuellement disponibles uniquement dans des simulations, qui offrent une variété limitée d’objets et de mouvements. Dans ce travail, nous démontrons comment des données réelles à grande échelle, non étiquetées et non curatrices, peuvent améliorer significativement un modèle TAP avec des modifications architecturales minimales, en utilisant un cadre auto-supervisé de type « élève-enseignant ». Nous atteignons des performances de pointe sur le benchmark TAP-Vid, dépassant largement les résultats précédents : par exemple, la performance sur TAP-Vid-DAVIS passe de 61,3 % à 67,4 %, et celle sur TAP-Vid-Kinetics de 57,2 % à 62,5 %. Pour des visualisations, rendez-vous sur notre page de projet à l’adresse https://bootstap.github.io/


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp