Attributbasiertes progressives Fusionsnetzwerk für RGBT-Tracking
RGBT-Verfolgung leidet typischerweise unter verschiedenen herausfordernden Faktoren wie schneller Bewegung, Skalenvariation, Beleuchtungsänderungen, thermischer Überlappung und Verdeckung. Bestehende Ansätze untersuchen oft Fusionmodelle, die alle Herausforderungen gleichzeitig bewältigen sollen, was Modelle mit hoher Komplexität und große Mengen an Trainingsdaten erfordert und in realen Szenarien häufig schwer zu realisieren ist. In dieser Arbeit entkoppeln wir den Fusionsprozess nach den jeweiligen Herausforderungsmerkmalen und schlagen daher ein neuartiges, attributbasiertes, schrittweises Fusionsnetzwerk (Attribute-Based Progressive Fusion Network, APFNet) vor, das die Fusionskapazität mit einer geringen Anzahl von Parametern erhöht und gleichzeitig die Abhängigkeit von großen, umfangreichen Trainingsdatensätzen reduziert. Insbesondere entwerfen wir fünf merkmalspezifische Fusionszweige, um RGB- und Wärmebildmerkmale jeweils unter den spezifischen Bedingungen thermischer Überlappung, Beleuchtungsänderungen, Skalenvariation, Verdeckung und schneller Bewegung zu integrieren. Durch die Entkoppelung des Fusionsprozesses können wir für jeden Zweig eine geringe Anzahl von Parametern verwenden, um eine robuste Fusion verschiedener Modalitäten zu erreichen, und jeden Zweig mit einer kleinen Trainingsuntermenge trainieren, die entsprechende Merkmalsannotationen enthält. Anschließend entwickeln wir ein Aggregationsfusionsmodul basierend auf SKNet, um die Merkmale aller Zweige adaptiv zu fusionieren. Schließlich integrieren wir einen Verbesserungsfusions-Transformer, um die aggregierten Merkmale sowie modality-spezifische Merkmale zu stärken. Experimentelle Ergebnisse auf Benchmark-Datensätzen belegen die Wirksamkeit unseres APFNet im Vergleich zu anderen state-of-the-art-Methoden.