HyperAIHyperAI
vor 2 Monaten

Sichtbar-Infrarot-Drohnenverfolgung: Eine umfangreiche Benchmark und neue Baseline

Pengyu Zhang; Jie Zhao; Dong Wang; Huchuan Lu; Xiang Ruan
Sichtbar-Infrarot-Drohnenverfolgung: Eine umfangreiche Benchmark und neue Baseline
Abstract

Mit der zunehmenden Verbreitung von multimodalen Sensoren wird die sichtbare-thermische (RGB-T) Objekterkennung angestrebt, um durch die Nutzung der Temperaturinformationen robuster Leistungen und breitere Anwendungsszenarien zu erzielen. Allerdings stellt der Mangel an gepaarten Trainingsbeispielen die Hauptflaschenhals dar, um das volle Potenzial der RGB-T-Verfolgung zu nutzen. Da es aufwendig ist, hochwertige RGB-T-Sequenzen zu sammeln, bieten aktuelle Benchmarks nur Testsequenzen. In dieser Arbeit konstruieren wir einen umfangreichen Benchmark mit hoher Vielfalt für sichtbare-thermische Drohnenverfolgung (VTUAV), der 500 Sequenzen mit 1,7 Millionen hochaufgelösten (1920 × 1080 Pixel) Bildpaaren enthält. Darüber hinaus werden umfassende Anwendungen (kurzfristige Verfolgung, langfristige Verfolgung und Segmentierungsmaskenvorhersage) mit verschiedenen Kategorien und Szenarien berücksichtigt, um eine gründliche Bewertung durchzuführen. Zudem stellen wir eine grob-zu-feine Attributannotierung zur Verfügung, bei der rahmenebene Attribute bereitgestellt werden, um das Potenzial von herausforderungsspezifischen Trackern auszuschöpfen. Des Weiteren entwickeln wir einen neuen RGB-T-Basis-Tracker namens Hierarchischer Multimodal-Fusion-Tracker (HMFT), der RGB-T-Daten auf verschiedenen Ebenen fusioniert. Zahlreiche Experimente auf mehreren Datensätzen wurden durchgeführt, um die Effektivität des HMFT sowie die Komplementarität verschiedener Fusionstypen zu verdeutlichen. Das Projekt ist hier verfügbar.

Sichtbar-Infrarot-Drohnenverfolgung: Eine umfangreiche Benchmark und neue Baseline | Neueste Forschungsarbeiten | HyperAI