HyperAIHyperAI
vor 2 Monaten

Eingheitliches Sequenz-zu-Sequenz-Lernen für die Verfolgung von visuellen Objekten in mono- und multimodalen Szenarien

Xin Chen; Ben Kang; Jiawen Zhu; Dong Wang; Houwen Peng; Huchuan Lu
Eingheitliches Sequenz-zu-Sequenz-Lernen für die Verfolgung von visuellen Objekten in mono- und multimodalen Szenarien
Abstract

In dieser Arbeit stellen wir ein neues sequenzbasiertes Lernframework für die Objektverfolgung auf der Grundlage von RGB-Bildern und multimodalen Daten vor. Zunächst präsentieren wir SeqTrack für die RGB-basierte Verfolgung. Es interpretiert die visuelle Verfolgung als eine Sequenzgenerierungsaufgabe und prognostiziert die Begrenzungsrahmen (Bounding Boxes) der Objekte in einem autoregressiven Modus. Dies unterscheidet sich von früheren Verfolgungssystemen, die auf komplexen Kopfnetzwerken wie Klassifikations- und Regressionsköpfen basieren. SeqTrack verwendet eine grundlegende Encoder-Decoder-Transformer-Architektur. Der Encoder nutzt einen bidirektionalen Transformer zur Merkmalsextraktion, während der Decoder die Bounding Box-Sequenzen autoregressiv mit einem kausalen Transformer generiert. Die Verlustfunktion ist eine einfache Kreuzentropie.Anschließend führen wir SeqTrackv2 ein, ein vereinheitlichtes sequenzbasiertes Framework für multimodale Verfolgungsaufgaben. Aufbauend auf SeqTrack integriert SeqTrackv2 eine einheitliche Schnittstelle für zusätzliche Modalitäten sowie eine Reihe von Task-Prompt-Token, um die jeweilige Aufgabe zu spezifizieren. Dies ermöglicht es dem System, multimodale Verfolgungsaufgaben mit einem einheitlichen Modell und Parameter Satz zu bearbeiten. Dieses sequenzbasierte Lernparadigma vereinfacht nicht nur das Verfolgungsframework, sondern zeigt auch überlegen Leistungen in 14 anspruchsvollen Benchmarks, die fünf einzelne und multimodale Verfolgungsaufgaben abdecken. Der Code und die Modelle sind unter https://github.com/chenxin-dlut/SeqTrackv2 verfügbar.

Eingheitliches Sequenz-zu-Sequenz-Lernen für die Verfolgung von visuellen Objekten in mono- und multimodalen Szenarien | Neueste Forschungsarbeiten | HyperAI