GiT: Graph Interactive Transformer für die Fahrzeug-Wiederidentifikation

Transformers gewinnen in der Computer Vision zunehmend an Beliebtheit, da sie ein Bild als eine Folge von Patch-Teilen betrachten und robuste globale Merkmale aus dieser Folge lernen. Allerdings sind reine Transformers nicht vollständig für die Fahrzeug-Identifikation geeignet, da diese Aufgabe sowohl robuste globale Merkmale als auch differenzierende lokale Merkmale erfordert. Um dies zu adressieren, wird in diesem Beitrag ein grapheninteraktiver Transformer (GiT) vorgestellt. Auf makroskopischer Ebene werden eine Reihe von GiT-Blöcken gestapelt, um ein Fahrzeug-Identifikationsmodell zu bilden, wobei Graphen zur Extraktion differenzierender lokaler Merkmale innerhalb der Patches und Transformer zur Extraktion robuster globaler Merkmale zwischen den Patches eingesetzt werden. Auf mikroskopischer Ebene befinden sich Graphen und Transformer in einem interaktiven Zustand, was eine effektive Zusammenarbeit zwischen lokalen und globalen Merkmalen ermöglicht. Konkret wird ein aktueller Graph nach dem vorherigen Graphen und Transformer eingebettet, während der aktuelle Transformer nach dem aktuellen Graphen und dem vorherigen Transformer eingebettet wird. Zusätzlich zur Interaktion zwischen Graphen und Transformer ist der Graph ein neu entwickelter lokaler Korrekturgraph, der differenzierende lokale Merkmale innerhalb eines Patch durch die Analyse der Beziehungen zwischen Knoten lernt. Umfangreiche Experimente auf drei großen Fahrzeug-Identifikations-Datensätzen zeigen, dass unsere GiT-Methode gegenüber aktuellen state-of-the-art-Ansätzen für die Fahrzeug-Identifikation überlegen ist.