HyperAIHyperAI
vor 11 Tagen

Transformer trifft Tracker: Ausnutzung zeitlicher Kontextinformationen für robuste visuelle Verfolgung

Ning Wang, Wengang Zhou, Jie Wang, Houqaing Li
Transformer trifft Tracker: Ausnutzung zeitlicher Kontextinformationen für robuste visuelle Verfolgung
Abstract

Bei der Video-Objektverfolgung existieren reiche zeitliche Kontexte zwischen aufeinanderfolgenden Bildern, die in bestehenden Verfolgungssystemen weitgehend vernachlässigt wurden. In dieser Arbeit schließen wir die Lücke zwischen einzelnen Videobildern und erschließen die zeitlichen Kontexte zwischen ihnen mittels einer Transformer-Architektur für eine robuste Objektverfolgung. Im Gegensatz zur klassischen Anwendung des Transformers in natürlichsprachlichen Verarbeitungsaufgaben trennen wir Encoder und Decoder in zwei parallele Zweige auf und gestalten diese sorgfältig innerhalb von Siamese-ähnlichen Verfolgungspipelines. Der Transformer-Encoder fördert die Zielvorlagen durch auf Aufmerksamkeit basierende Merkmalsverstärkung, was die Generierung hochwertiger Verfolgungsmodelle unterstützt. Der Transformer-Decoder überträgt die Verfolgungshinweise von vorherigen Vorlagen auf das aktuelle Bild, was den Objektsuchprozess erleichtert. Unser transformerbasiertes Verfolgungssystem ist elegant und wird end-to-end trainiert. Durch die vorgeschlagene Transformer-Architektur ist ein einfacher Siamese-Abgleichansatz in der Lage, die derzeit besten Verfolgungssysteme zu übertrumpfen. Durch die Kombination unseres Transformers mit der jüngsten differenzierenden Verfolgungspipeline erreicht unsere Methode mehrere neue SOTA-Ergebnisse auf etablierten Verfolgungsbenchmarks.

Transformer trifft Tracker: Ausnutzung zeitlicher Kontextinformationen für robuste visuelle Verfolgung | Neueste Forschungsarbeiten | HyperAI