Vereinheitlichung von visuellem und visions-sprachlichem Tracking mittels kontrastivem Lernen

Einzelobjektsverfolgung zielt darauf ab, das Zielobjekt in einer Videosequenz entsprechend der durch verschiedene Modaltitäten spezifizierten Zustände zu lokalisieren, darunter die anfängliche Bounding Box (BBOX), natürliche Sprache (NL) oder beide (NL+BBOX). Aufgrund der Diskrepanz zwischen den verschiedenen Modalitäten sind die meisten bestehenden Verfolgungssysteme für eine einzelne oder nur eine Teilmenge dieser Referenzkonfigurationen ausgelegt und weisen eine Überanpassung an die jeweilige Modality auf. Im Gegensatz dazu präsentieren wir einen einheitlichen Verfolger namens UVLTrack, der gleichzeitig alle drei Referenzkonfigurationen (BBOX, NL, NL+BBOX) mit denselben Parametern verarbeiten kann. Der vorgeschlagene UVLTrack zeichnet sich durch mehrere Vorteile aus. Erstens haben wir einen modality-uniformen Merkmalsextraktor entworfen, der gemeinsame visuelle und sprachliche Merkmale lernt, und eine multimodale kontrastive Verlustfunktion vorgeschlagen, um visuelle und sprachliche Merkmale in einen einheitlichen semantischen Raum zu alignieren. Zweitens wird ein modality-adaptiver Box-Head vorgestellt, der die Zielreferenz optimal nutzt, um dynamisch aus den Video-Kontexten ständig wechselnde Szenenmerkmale zu extrahieren und das Ziel kontrastiv zu unterscheiden, was eine robuste Leistung unter verschiedenen Referenzkonfigurationen ermöglicht. Umfassende experimentelle Ergebnisse zeigen, dass UVLTrack vielversprechende Ergebnisse auf sieben visuellen Verfolgungsdatensätzen, drei visuell-sprachlichen Verfolgungsdatensätzen und drei visuellen Grundlegungsdatensätzen erzielt. Der Quellcode und die Modelle werden unter https://github.com/OpenSpaceAI/UVLTrack öffentlich zugänglich gemacht.