Nach: Aufmerksamkeitsbasierter Fusionsrouter für RGBT-Verfolgung

Die multimodale Merkmalsfusion als zentrales Untersuchungselement des RGBT-Trackings hat in den letzten Jahren zahlreiche Fusionstudien hervorgebracht. Bestehende RGBT-Tracking-Methoden verwenden jedoch weit verbreitet feste Fusionstrukturen zur Integration multimodalitätiger Merkmale, die es schwierig machen, verschiedene Herausforderungen in dynamischen Szenarien zu bewältigen. Um dieses Problem zu lösen, präsentiert diese Arbeit ein neues \emph{A}ufmerksamkeitsbasiertes \emph{F}usions-\emph{r}outing-Verfahren, genannt AFter (Attention-based Fusion router), das die Fusionstruktur optimiert, um sich an dynamische und herausfordernde Szenarien anzupassen und so ein robustes RGBT-Tracking zu gewährleisten. Insbesondere entwerfen wir einen Fusionsstrukturraum basierend auf einem hierarchischen Aufmerksamkeitsnetzwerk, wobei jede aufmerksamkeitsbasierte Fusionskomponente einer Fusionsoperation entspricht und eine Kombination dieser Komponenten einer Fusionsstruktur entspricht. Durch die Optimierung der Kombination von aufmerksamkeitsbasierten Fusionskomponenten können wir die Fusionsstruktur dynamisch auswählen, um sich an verschiedene herausfordernde Szenarien anzupassen. Im Gegensatz zur komplexen Suche nach verschiedenen Strukturen in neuronalen Architektursuchalgorithmen haben wir einen dynamischen Routingalgorithmus entwickelt, der jeder aufmerksamkeitsbasierten Fusionskomponente einen Router zuordnet, um die Kombinationsgewichte vorherzusagen und so eine effiziente Optimierung der Fusionsstruktur zu ermöglichen. Ausführliche Experimente mit fünf führenden RGBT-Tracking-Datensätzen zeigen die überlegene Leistung des vorgeschlagenen AFters im Vergleich zu den besten aktuellen RGBT-Trackern. Wir stellen den Code unter https://github.com/Alexadlu/AFter bereit.