Objektverfolgung mithilfe von Siamese-Netzwerk-basiertem Verstärkungslernen
Objektverfolgung ist eine Technik zur Verfolgung eines bestimmten Objekts in einer Videosequenz unter Berücksichtigung seiner Merkmale oder Veränderungen. In letzter Zeit sind zahlreiche Algorithmen mit hervorragender Leistung entstanden, die das Siamese-Netzwerk im Bereich der Objektverfolgung einsetzen. Ein Siamese-Netzwerk ist darauf ausgelegt, die Ähnlichkeit zwischen zwei Bildern zu lernen. Bei der Objektverfolgung identifiziert das Siamese-Netzwerk die Position im Suchbild, die der Zielvorlage am ähnlichsten ist. Algorithmen, die auf Siamese-Netzwerken basieren, sind jedoch anfällig für partielle und vollständige Verdeckung des Objekts. Zudem wird das Objekt ausschließlich anhand der Ähnlichkeit mit dem Bild verfolgt, das mittels des Ground-Truth-Bounding-Box der ersten Frame erzeugt wurde. Falls das Objekt einmal verloren geht, häufen sich die Fehler, was häufig zu einer Abweichung des verfolgten Objekts von dem tatsächlichen Objekt führt. Daher schlagen wir in diesem Artikel ein Verstärkungslernmodell vor, das darauf abzielt, nach partieller oder vollständiger Verdeckung des Objekts die Belohnung für eine erfolgreiche Verfolgung zu maximieren. Außerdem stellen wir eine dynamische Vorlage-Austausch-Methode vor, die eine Vorlage verwendet, die in einem kürzlich verfolgten Frame erfolgreich verfolgt wurde, um das Drift-Problem zu lösen. Bei der Anwendung des vorgeschlagenen Modells auf bestehende Verfolgungsmodelle zur quantitativen Bewertung in den repräsentativen Benchmark-Datenbanken VOT2018 und OTB50 zeigt sich eine verbesserte Genauigkeit sowie eine reduzierte Anzahl an Verfolgungsfehlern im Vergleich zu bestehenden Methoden. Insgesamt werden bei VOT2018 eine Genauigkeit von 0,618, eine Robustheit von 0,234 und ein erwarteter durchschnittlicher Überlappungswert (EAO) von 0,416 erreicht, während bei OTB50 eine Erfolgsrate von 0,673 und eine Präzision von 0,881 erzielt wird.