Command Palette
Search for a command to run...
Generierungsbasierter Fusionsmechanismus für multimodales Tracking
Generierungsbasierter Fusionsmechanismus für multimodales Tracking
Zhangyong Tang Tianyang Xu Xuefeng Zhu Xiao-Jun Wu* Josef Kittler
Zusammenfassung
Generative Models (GMs) haben in den letzten Jahren zunehmendes Forschungsinteresse aufgrund ihrer bemerkenswerten Fähigkeit zur umfassenden Analyse gewonnen. Dennoch ist ihre potenzielle Anwendung im Bereich der multimodalen Verfolgung bisher relativ wenig erforscht worden. In diesem Kontext streben wir danach, das Potenzial generativer Techniken zu erschließen, um die entscheidende Herausforderung der Informationsfusion in der multimodalen Verfolgung anzugehen. In dieser Arbeit untersuchen wir zwei führende GM-Techniken, nämlich Conditional Generative Adversarial Networks (CGANs) und Diffusion Models (DMs). Im Gegensatz zum standardmäßigen Fusionierungsprozess, bei dem die Merkmale jeder Modalität direkt in den Fusionierungsblock eingespeist werden, konditionieren wir diese multimodalen Merkmale mit zufälligem Rauschen im GM-Rahmen. Dies transformiert die ursprünglichen Trainingsbeispiele effektiv in schwierigere Instanzen. Diese Designentscheidung zeichnet sich dadurch aus, dass sie diskriminierende Hinweise aus den Merkmalen extrahiert und so die endgültige Verfolgungsleistung verbessert. Um die Effektivität unseres Ansatzes quantitativ zu bewerten, führen wir umfangreiche Experimente an zwei multimodalen Verfolgungsaufgaben, drei Baseline-Methoden und drei anspruchsvollen Benchmarks durch. Die experimentellen Ergebnisse zeigen, dass der vorgeschlagene generativen-basierte Fusionismechanismus eine Spitzenleistung erzielt und neue Rekordwerte auf LasHeR und RGBD1K setzt.