Command Palette
Search for a command to run...
Kreuzmodale orthogonale Hochrang-Verstärkung für RGB-Ereignis Transformer-Tracker
Kreuzmodale orthogonale Hochrang-Verstärkung für RGB-Ereignis Transformer-Tracker
Zhiyu Zhu Junhui Hou Dapeng Oliver Wu
Zusammenfassung
Diese Arbeit behandelt das Problem des cross-modal-Objektverfolgens aus RGB-Videos und Ereignisdaten. Anstatt ein komplexes cross-modal-Fusionsnetzwerk zu konstruieren, untersuchen wir das große Potenzial eines vortrainierten Vision-Transformers (ViT). Insbesondere erforschen wir sorgfältig plug-and-play-Trainingsverstärkungstechniken, die den ViT dazu anregen, die erhebliche Verteilungsunterschiede zwischen den beiden Modalitäten zu überbrücken und somit eine umfassende cross-modal-Informationsexploration zu ermöglichen, was seine Leistungsfähigkeit erheblich steigert. Konkret schlagen wir eine Maskierungsmodellierungsstrategie vor, bei der bestimmte Token einer spezifischen Modality zufällig maskiert werden, um eine proaktive Interaktion zwischen Tokens verschiedener Modalitäten zu erzwingen. Um Netzwerkoszillationen, die durch die Maskierungsstrategie verursacht werden, zu verringern und ihren positiven Effekt weiter zu verstärken, leiten wir theoretisch eine orthogonale Hochrang-Verlustfunktion ab, die die Aufmerksamkeitsmatrix regularisiert. Umfangreiche Experimente zeigen, dass unsere plug-and-play-Trainingsverstärkungstechniken die Leistung von state-of-the-art ein- und zweistrahligen Verfolgungsalgorithmen sowohl in Bezug auf Genauigkeit als auch Erfolgsrate erheblich steigern können. Unser neuer Ansatz und die gewonnenen Erkenntnisse werden potenziell wertvolle Einsichten für die Nutzung leistungsstarker vortrainierter ViTs zur Modellierung cross-modaler Daten liefern. Der Quellcode wird öffentlich verfügbar sein.