vor 11 Tagen

SUTrack: Hin zu einer einfachen und einheitlichen Einzelobjektverfolgung

Xin Chen, Ben Kang, Wanting Geng, Jiawen Zhu, Yi Liu, Dong Wang, Huchuan Lu

Abstract

In diesem Paper stellen wir einen einfachen, jedoch einheitlichen Einzelobjektverfolgungsrahmen (Single Object Tracking, SOT), namens SUTrack, vor. Er integriert fünf SOT-Aufgaben (RGB-basiert, RGB-Tiefen, RGB-Wärmebild, RGB-Event, RGB-Sprache) in ein einheitliches Modell, das in einer einzigen Trainingsphase trainiert wird. Aufgrund der unterschiedlichen Natur der Daten entwickeln derzeitige Methoden typischerweise separate Architekturen und trainieren getrennte Modelle für jede Aufgabe. Diese Fragmentierung führt zu redundanten Trainingsprozessen, wiederholten technologischen Innovationen und begrenztem Wissensaustausch zwischen Modalitäten. Im Gegensatz dazu zeigt SUTrack, dass ein einziges Modell mit einer einheitlichen Eingaberepräsentation effektiv verschiedene gängige SOT-Aufgaben bewältigen kann, wodurch die Notwendigkeit für aufgabe-spezifische Entwürfe und getrennte Trainingsphasen entfällt. Zusätzlich führen wir eine Hilfs-Trainingsstrategie zur Aufgabenerkennung sowie eine weiche Token-Typ-Einbettung ein, um die Leistung von SUTrack mit minimalen zusätzlichen Kosten weiter zu steigern. Experimente belegen, dass SUTrack gegenüber früheren aufgabe-spezifischen Ansätzen auf 11 Datensätzen, die fünf SOT-Aufgaben abdecken, die bessere Leistung erzielt. Darüber hinaus stellen wir eine Reihe von Modellen bereit, die sowohl für Edge-Geräte als auch für leistungsstarke GPUs geeignet sind, und erreichen dabei ein gutes Gleichgewicht zwischen Geschwindigkeit und Genauigkeit. Wir hoffen, dass SUTrack als solide Grundlage für zukünftige bahnbrechende Forschung an einheitlichen Verfolgungsmodellen dienen kann. Der Quellcode und die Modelle sind unter github.com/chenxin-dlut/SUTrack verfügbar.