HyperAIHyperAI
vor 11 Tagen

TAPIR: Verfolgung eines beliebigen Punkts mit frame-weiser Initialisierung und zeitlicher Verfeinerung

Carl Doersch, Yi Yang, Mel Vecerik, Dilara Gokay, Ankush Gupta, Yusuf Aytar, Joao Carreira, Andrew Zisserman
TAPIR: Verfolgung eines beliebigen Punkts mit frame-weiser Initialisierung und zeitlicher Verfeinerung
Abstract

Wir präsentieren ein neuartiges Modell für Tracking Any Point (TAP), das beliebige abgefragte Punkte auf beliebigen physischen Oberflächen über eine gesamte Videosequenz hinweg effektiv verfolgt. Unser Ansatz basiert auf zwei Stufen: (1) einer Matching-Stufe, die unabhängig für jeden anderen Frame eine geeignete Kandidatenpunktübereinstimmung für den Abfragepunkt ermittelt, und (2) einer Verfeinerungsstufe, die sowohl die Trajektorie als auch die Abfrage-Features auf Basis lokaler Korrelationen aktualisiert. Das resultierende Modell erreicht auf der TAP-Vid-Benchmark erheblich bessere Ergebnisse als alle Baseline-Methoden, wie eine durchschnittliche Verbesserung des Jaccard-Indikators (AJ) um etwa 20 Prozent auf DAVIS zeigt. Unser Modell ermöglicht eine schnelle Inferenz auch bei langen und hochauflösenden Videosequenzen. Auf einer modernen GPU kann unsere Implementierung die Punktverfolgung schneller als in Echtzeit durchführen und flexibel auf noch höhere Auflösungen erweitert werden. Aufgrund der hochwertigen Trajektorien, die aus einer großen Datenmenge extrahiert wurden, demonstrieren wir ein Proof-of-Concept-Diffusionsmodell, das Trajektorien aus statischen Bildern generiert und somit plausiblen Animationen ermöglicht. Visualisierungen, Quellcode und vortrainierte Modelle sind auf unserer Projektwebseite verfügbar.

TAPIR: Verfolgung eines beliebigen Punkts mit frame-weiser Initialisierung und zeitlicher Verfeinerung | Neueste Forschungsarbeiten | HyperAI