HyperAIHyperAI

Command Palette

Search for a command to run...

Kreuzmodale orthogonale Hochrang-Verstärkung für RGB-Ereignis Transformer-Tracker

Zhiyu Zhu Junhui Hou Dapeng Oliver Wu

Zusammenfassung

Diese Arbeit behandelt das Problem des cross-modal-Objektverfolgens aus RGB-Videos und Ereignisdaten. Anstatt ein komplexes cross-modal-Fusionsnetzwerk zu konstruieren, untersuchen wir das große Potenzial eines vortrainierten Vision-Transformers (ViT). Insbesondere erforschen wir sorgfältig plug-and-play-Trainingsverstärkungstechniken, die den ViT dazu anregen, die erhebliche Verteilungsunterschiede zwischen den beiden Modalitäten zu überbrücken und somit eine umfassende cross-modal-Informationsexploration zu ermöglichen, was seine Leistungsfähigkeit erheblich steigert. Konkret schlagen wir eine Maskierungsmodellierungsstrategie vor, bei der bestimmte Token einer spezifischen Modality zufällig maskiert werden, um eine proaktive Interaktion zwischen Tokens verschiedener Modalitäten zu erzwingen. Um Netzwerkoszillationen, die durch die Maskierungsstrategie verursacht werden, zu verringern und ihren positiven Effekt weiter zu verstärken, leiten wir theoretisch eine orthogonale Hochrang-Verlustfunktion ab, die die Aufmerksamkeitsmatrix regularisiert. Umfangreiche Experimente zeigen, dass unsere plug-and-play-Trainingsverstärkungstechniken die Leistung von state-of-the-art ein- und zweistrahligen Verfolgungsalgorithmen sowohl in Bezug auf Genauigkeit als auch Erfolgsrate erheblich steigern können. Unser neuer Ansatz und die gewonnenen Erkenntnisse werden potenziell wertvolle Einsichten für die Nutzung leistungsstarker vortrainierter ViTs zur Modellierung cross-modaler Daten liefern. Der Quellcode wird öffentlich verfügbar sein.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp