RPT: Lernen von Punktmenge-Darstellungen für siamesische visuelle Verfolgung

Obwohl erhebliche Fortschritte im robusten visuellen Verfolgung erzielt wurden, bleibt die genaue Schätzung des Zielzustands weiterhin eine hochkomplexe Aufgabe. In diesem Artikel argumentieren wir, dass dieses Problem eng mit der verbreiteten Darstellung durch Achsenparallele Rechtecke (bounding boxes) zusammenhängt, die lediglich eine grobe räumliche Ausdehnung des Objekts liefern. Daher wird ein effizientes visuelles Verfolgungsframework vorgestellt, das den Zielzustand präzise mit einer feineren Darstellung als Menge repräsentativer Punkte schätzt. Die Punktmenge wird so trainiert, dass sie semantisch und geometrisch bedeutungsvolle Positionen im Zielbereich markiert, was eine feinere Lokalisierung und Modellierung der Objektoberfläche ermöglicht. Außerdem wird eine mehrstufige Aggregationsstrategie vorgeschlagen, um detaillierte Strukturinformationen durch die Fusion hierarchischer Konvolutionsschichten zu erlangen. Umfassende Experimente auf mehreren anspruchsvollen Benchmarks, darunter OTB2015, VOT2018, VOT2019 und GOT-10k, zeigen, dass unsere Methode neue SOTA-Leistungen (State-of-the-Art) erzielt und gleichzeitig mit einer Geschwindigkeit von über 20 FPS läuft.