HyperAIHyperAI
vor 2 Monaten

Die RGBT-Verfolgungsbenchmarks aus der Perspektive der Modalitätsgültigkeit neu betrachten: Ein neuer Benchmark, ein Problem und eine Lösung

Zhangyong Tang; Tianyang Xu; Zhenhua Feng; Xuefeng Zhu; Chunyang Cheng; Xiao-Jun Wu; Josef Kittler
Die RGBT-Verfolgungsbenchmarks aus der Perspektive der Modalitätsgültigkeit neu betrachten: Ein neuer Benchmark, ein Problem und eine Lösung
Abstract

Die RGBT-Verfolgung (RGBT tracking) gewinnt zunehmend an Bedeutung aufgrund ihrer Robustheit in multimodalen Szenarien (multi-modal warranting, MMW), wie zum Beispiel in der Nacht oder bei ungünstigen Wetterbedingungen, wo die Verwendung einer einzelnen Sensormodalität stabile Verfolgungsergebnisse nicht garantieren kann. Bestehende Benchmarks enthalten jedoch hauptsächlich Videos, die in üblichen Szenarien aufgenommen wurden, in denen sowohl RGB- als auch thermische Infrarotinformationen (thermal infrared, TIR) ausreichend gut sind. Dies verringert die Repräsentativität bestehender Benchmarks bei schwerwiegenden Bildaufnahmeverhältnissen und führt zu Verfolgungsfehlern in MMW-Szenarien. Um diese Lücke zu schließen, präsentieren wir einen neuen Benchmark, der die Modalitätsvalidität berücksichtigt: MV-RGBT. Dieser wurde speziell für MMW-Szenarien aufgenommen, in denen entweder die RGB-Modalität (extreme Beleuchtung) oder die TIR-Modalität (thermische Abschneidung) ungültig ist. Daher wird er je nach gültiger Modalität in zwei Teilmengen unterteilt, was eine neue zusammengesetzte Perspektive für die Bewertung bietet und wertvolle Erkenntnisse für zukünftige Entwürfe liefert. Zudem ist MV-RGBT der vielfältigste Benchmark seiner Art und umfasst 36 verschiedene Objektkategorien über 19 unterschiedliche Szenen. Unter Berücksichtigung schwerwiegender Bildaufnahmeverhältnisse in MMW-Szenarien wird ein neues Problem in der RGBT-Verfolgung formuliert, das als "Wann fusionieren" bezeichnet wird. Dies soll den Fortschritt von Fusionsstrategien für solche Szenarien fördern. Um dessen Diskussion zu erleichtern, schlagen wir eine neue Lösung vor, die auf einem Mischmodell von Experten basiert und als MoETrack bezeichnet wird. Jeder Experte generiert unabhängige Verfolgungsergebnisse zusammen mit einem Konfidenzwert. Ausführliche Ergebnisse zeigen das erhebliche Potenzial von MV-RGBT zur Verbesserung der RGBT-Verfolgung und führen zu dem Schluss, dass Fusion nicht immer vorteilhaft ist, insbesondere in MMW-Szenarien. Darüber hinaus erreicht MoETrack Stand-des-Wissens-Ergebnisse auf mehreren Benchmarks, darunter MV-RGBT, GTOT und LasHeR.GitHub: https://github.com/Zhangyong-Tang/MVRGBT

Die RGBT-Verfolgungsbenchmarks aus der Perspektive der Modalitätsgültigkeit neu betrachten: Ein neuer Benchmark, ein Problem und eine Lösung | Neueste Forschungsarbeiten | HyperAI