vor 6 Monaten

Zusammenfassung

Diese Arbeit behandelt das Problem des cross-modal-Objektverfolgens aus RGB-Videos und Ereignisdaten. Anstatt ein komplexes cross-modal-Fusionsnetzwerk zu konstruieren, untersuchen wir das große Potenzial eines vortrainierten Vision-Transformers (ViT). Insbesondere erforschen wir sorgfältig plug-and-play-Trainingsverstärkungstechniken, die den ViT dazu anregen, die erhebliche Verteilungsunterschiede zwischen den beiden Modalitäten zu überbrücken und somit eine umfassende cross-modal-Informationsexploration zu ermöglichen, was seine Leistungsfähigkeit erheblich steigert. Konkret schlagen wir eine Maskierungsmodellierungsstrategie vor, bei der bestimmte Token einer spezifischen Modality zufällig maskiert werden, um eine proaktive Interaktion zwischen Tokens verschiedener Modalitäten zu erzwingen. Um Netzwerkoszillationen, die durch die Maskierungsstrategie verursacht werden, zu verringern und ihren positiven Effekt weiter zu verstärken, leiten wir theoretisch eine orthogonale Hochrang-Verlustfunktion ab, die die Aufmerksamkeitsmatrix regularisiert. Umfangreiche Experimente zeigen, dass unsere plug-and-play-Trainingsverstärkungstechniken die Leistung von state-of-the-art ein- und zweistrahligen Verfolgungsalgorithmen sowohl in Bezug auf Genauigkeit als auch Erfolgsrate erheblich steigern können. Unser neuer Ansatz und die gewonnenen Erkenntnisse werden potenziell wertvolle Einsichten für die Nutzung leistungsstarker vortrainierter ViTs zur Modellierung cross-modaler Daten liefern. Der Quellcode wird öffentlich verfügbar sein.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Objektverfolgung

Transformer

Multimodale Darstellung

Zhiyu Zhu Junhui Hou Dapeng Oliver Wu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Objektverfolgung

Transformer

Multimodale Darstellung

Zhiyu Zhu Junhui Hou Dapeng Oliver Wu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Kreuzmodale orthogonale Hochrang-Verstärkung für RGB-Ereignis Transformer-Tracker

Zhiyu Zhu Junhui Hou Dapeng Oliver Wu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kreuzmodale orthogonale Hochrang-Verstärkung für RGB-Ereignis Transformer-Tracker

Zhiyu Zhu Junhui Hou Dapeng Oliver Wu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kreuzmodale orthogonale Hochrang-Verstärkung für RGB-Ereignis Transformer-Tracker

Zhiyu Zhu Junhui Hou Dapeng Oliver Wu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters