Objektverfolgung durch gemeinsame Ausnutzung von Frame- und Ereignisdomäne

Angeregt durch die Komplementarität zwischen herkömmlichen framebasierten und bioinspirierten eventbasierten Kameras stellen wir einen multimodalen Ansatz vor, um visuelle Hinweise aus dem Frame- und Event-Domänenbereich zu fusionieren, um die Leistung von Single-Object-Tracking insbesondere unter verschlechterten Bedingungen (z. B. Szenen mit hohem Dynamikumfang, niedriger Beleuchtung und schnellen Bewegungsobjekten) zu verbessern. Der vorgeschlagene Ansatz kann sinnvolle Informationen aus beiden Domänen effektiv und adaptiv kombinieren. Die Wirksamkeit unseres Ansatzes wird durch ein neuartig entworfenes Cross-Domain-Attention-Schema gestärkt, das Features durch sowohl selbstbezogene als auch kreuzdomänenbezogene Aufmerksamkeit effektiv verstärkt; die Adaptivität wird durch ein speziell entwickeltes Gewichtungsschema gewährleistet, das die Beiträge beider Domänen adaptiv ausbalanciert. Um eventbasierte visuelle Hinweise im Single-Object-Tracking effektiv auszunutzen, erstellen wir eine großskalige Frame-Event-Datenbank, die wir anschließend zur Trainings eines neuartigen frame-event-basierten Fusionsmodells verwenden. Umfangreiche Experimente zeigen, dass der vorgeschlagene Ansatz state-of-the-art framebasierte Tracking-Methoden hinsichtlich der repräsentativen Erfolgsrate um mindestens 10,4 % und hinsichtlich der Präzisionsrate um mindestens 11,9 % übertrifft. Zudem belegt unsere gründliche Ablationstudie die Wirksamkeit jedes zentralen Bestandteils unseres Ansatzes.