Zur sequenzbasierten Schulung für visuelle Verfolgung

Trotz der weit verbreiteten Anwendung des maschinellen Lernens bei der visuellen Objektverfolgung haben aktuelle lernbasierte Ansätze weitgehend die Tatsache übersehen, dass die visuelle Verfolgung in ihrer Natur eine sequenzbasierte Aufgabe ist. Sie basieren stark auf bildbasiertem Training, was unvermeidlich zu Inkonsistenzen zwischen Training und Test hinsichtlich sowohl der Datenverteilungen als auch der Aufgabenziele führt. Diese Arbeit stellt eine sequenzbasierte Trainingsstrategie für die visuelle Verfolgung vor, die auf Reinforcement Learning (Verstärkungslernen) basiert, und diskutiert, wie ein sequenzbasierter Entwurf von Datenstichprobenziehung, Lernzielen und Datenverstärkung die Genauigkeit und Robustheit von Verfolgungsalgorithmen verbessern kann. Unsere Experimente an Standard-Benchmarks einschließlich LaSOT, TrackingNet und GOT-10k zeigen, dass vier repräsentative Verfolgungsmodelle, SiamRPN++, SiamAttn, TransT und TrDiMP, durch die Einbeziehung der vorgeschlagenen Methoden im Training ohne Architekturänderungen konsistent verbessert werden.