MFGNet: Dynamische Modalitätsbewusste Filtergenerierung für RGB-T-Verfolgung

Viele RGB-T-Verfolgungsalgorithmen versuchen, eine robuste Merkmalsrepräsentation durch die Verwendung eines adaptiven Gewichtungsschemas (oder Aufmerksamkeitsmechanismus) zu erreichen. Im Gegensatz zu diesen Arbeiten schlagen wir ein neues dynamisches modalitätsbewusstes Filtergenerierungsmodul vor (benannt als MFGNet), um die Nachrichtenübermittlung zwischen sichtbaren und thermischen Daten durch anpassungsfähige Anpassung der Faltungskerne für verschiedene Eingabebilder in der praktischen Verfolgung zu verbessern. Bei den vorgegebenen Bildpaaren als Eingabe kodieren wir zunächst ihre Merkmale mit dem Backbone-Netzwerk. Anschließend fügen wir diese Merkmalskarten zusammen und generieren dynamische modalitätsbewusste Filter mit zwei unabhängigen Netzen. Die sichtbaren und thermischen Filter werden jeweils auf ihren entsprechenden Eingabemerkmalskarten eine dynamische Faltungsoperation durchführen. Inspiriert von Residualverbindungen werden sowohl die generierten sichtbaren als auch die thermischen Merkmalskarten mit den Eingabemerkmalskarten zusammengefasst. Die erweiterten Merkmalskarten werden in das RoI-Align-Modul eingespeist, um instanzspezifische Merkmale für die nachfolgende Klassifikation zu generieren. Um Probleme, die durch starke Verdeckungen, schnelle Bewegungen und außerhalb des Sichtfeldes verursacht werden, zu lösen, schlagen wir eine gemeinsame lokale und globale Suche vor, indem wir einen neuen richtungsbewussten zielgetriebenen Aufmerksamkeitsmechanismus nutzen. Ein räumlich-zeitlicher rekurrenter Neuronaler Netzwerks wird verwendet, um den richtungsbewussten Kontext für eine genaue globale Aufmerksamkeitsvorhersage zu erfassen. Ausführliche Experimente auf drei großen RGB-T-Verfolgungsbenchmark-Datensätzen bestätigten die Effektivität unseres vorgeschlagenen Algorithmus. Der Quellcode dieses Artikels ist unter \textcolor{magenta}{\url{https://github.com/wangxiao5791509/MFG_RGBT_Tracking_PyTorch}} verfügbar.