BootsTAP: Bootstrapper Training für Tracking-Any-Point

Um Modellen ein tieferes Verständnis für Physik und Bewegung zu verleihen, ist es nützlich, sie in die Lage zu versetzen, zu erfassen, wie feste Oberflächen in realen Szenen sich bewegen und verformen. Dies lässt sich formalisieren als Tracking-Any-Point (TAP), wobei der Algorithmus jedes beliebige Punkt auf festen Oberflächen in einem Video verfolgen muss, potenziell dicht im Raum und in der Zeit. Für TAP steht derzeit nur großskaliges, groundtruth-basiertes Trainingsdatenmaterial in Simulationen zur Verfügung, das jedoch derzeit eine begrenzte Vielfalt an Objekten und Bewegungen aufweist. In dieser Arbeit zeigen wir, wie großskalige, unlabeled und uncurated reale Welt-Daten eine TAP-Modellleistung mit minimalen architektonischen Änderungen erheblich verbessern können, indem ein selbstüberwachtes Student-Teacher-Setup eingesetzt wird. Wir erreichen einen state-of-the-art-Performance auf dem TAP-Vid-Benchmark und übertreffen dabei die vorherigen Ergebnisse deutlich: So steigt beispielsweise die Leistung von TAP-Vid-DAVIS von 61,3 % auf 67,4 % und die von TAP-Vid-Kinetics von 57,2 % auf 62,5 %. Für visuelle Beispiele besuchen Sie unsere Projekt-Webseite unter https://bootstap.github.io/