Lokale All-Pair-Zuordnung für Punktverfolgung

Wir stellen LocoTrack vor, ein hochpräzises und effizientes Modell, das für die Aufgabe des Verfolgens beliebiger Punkte (Tracking Any Point, TAP) über Videosequenzen entwickelt wurde. Bisherige Ansätze setzen häufig auf lokale 2D-Korrelationskarten, um Korrespondenzen von einem Punkt im Query-Bild zu einer lokalen Region im Zielbild herzustellen. Diese Methode leidet jedoch oft unter homogenen Regionen oder wiederholenden Merkmalen, was zu Mehrdeutigkeiten bei der Zuordnung führt. LocoTrack überwindet diese Herausforderung durch einen innovativen Ansatz, der alle-Paar-Korrespondenzen über Regionen hinweg nutzt, also lokale 4D-Korrelationen, um präzise Zuordnungen herzustellen. Die bidirektionale Korrespondenz sowie die Glätte der Zuordnung erhöhen die Robustheit gegenüber Mehrdeutigkeiten signifikant. Zudem integrieren wir einen leichtgewichtigen Korrelations-Encoder zur Verbesserung der Rechenleistung und eine kompakte Transformer-Architektur zur Einbindung langfristiger zeitlicher Informationen. LocoTrack erreicht uneingeschränkte Genauigkeit auf allen TAP-Vid-Benchmarks und arbeitet dabei fast sechsmal schneller als der derzeitige Stand der Technik.