HyperAIHyperAI

Command Palette

Search for a command to run...

Vereinheitlichung von visuellem und visions-sprachlichem Tracking mittels kontrastivem Lernen

Yinchao Ma Yuyang Tang Wenfei Yang Tianzhu Zhang Jinpeng Zhang Mengxue Kang

Zusammenfassung

Einzelobjektsverfolgung zielt darauf ab, das Zielobjekt in einer Videosequenz entsprechend der durch verschiedene Modaltitäten spezifizierten Zustände zu lokalisieren, darunter die anfängliche Bounding Box (BBOX), natürliche Sprache (NL) oder beide (NL+BBOX). Aufgrund der Diskrepanz zwischen den verschiedenen Modalitäten sind die meisten bestehenden Verfolgungssysteme für eine einzelne oder nur eine Teilmenge dieser Referenzkonfigurationen ausgelegt und weisen eine Überanpassung an die jeweilige Modality auf. Im Gegensatz dazu präsentieren wir einen einheitlichen Verfolger namens UVLTrack, der gleichzeitig alle drei Referenzkonfigurationen (BBOX, NL, NL+BBOX) mit denselben Parametern verarbeiten kann. Der vorgeschlagene UVLTrack zeichnet sich durch mehrere Vorteile aus. Erstens haben wir einen modality-uniformen Merkmalsextraktor entworfen, der gemeinsame visuelle und sprachliche Merkmale lernt, und eine multimodale kontrastive Verlustfunktion vorgeschlagen, um visuelle und sprachliche Merkmale in einen einheitlichen semantischen Raum zu alignieren. Zweitens wird ein modality-adaptiver Box-Head vorgestellt, der die Zielreferenz optimal nutzt, um dynamisch aus den Video-Kontexten ständig wechselnde Szenenmerkmale zu extrahieren und das Ziel kontrastiv zu unterscheiden, was eine robuste Leistung unter verschiedenen Referenzkonfigurationen ermöglicht. Umfassende experimentelle Ergebnisse zeigen, dass UVLTrack vielversprechende Ergebnisse auf sieben visuellen Verfolgungsdatensätzen, drei visuell-sprachlichen Verfolgungsdatensätzen und drei visuellen Grundlegungsdatensätzen erzielt. Der Quellcode und die Modelle werden unter https://github.com/OpenSpaceAI/UVLTrack öffentlich zugänglich gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp