TransMatcher: Tiefes Bildvergleich durch Transformer für generalisierbare Personenerkennung

Transformers haben in der Computer Vision kürzlich zunehmend an Bedeutung gewonnen.Doch bisherige Studien verwenden sie hauptsächlich für das Lernen von Merkmalsrepräsentationen,zum Beispiel für die Bildklassifizierung und dichte Vorhersagen, wobei die Allgemeinverwendbarkeit von Transformers unbekannt ist.In dieser Arbeit untersuchen wir weiterhin die Möglichkeit, Transformers für Bildabgleich und Metriklernen bei Paaren von Bildern einzusetzen.Wir stellen fest, dass der Vision Transformer (ViT) und der standardmäßige Transformer mit Decodernfür den Bildabgleich nicht ausreichend sind, aufgrund ihres Mangels an Bild-zu-Bild-Aufmerksamkeit.Daher entwerfen wir zwei einfache Lösungen: die Verkettung von Abfrage- und Galeriebildern im ViTund die Kreuzaufmerksamkeit zwischen Abfrage- und Galeriebildern im standardmäßigen Transformer.Die letztere verbessert die Leistung, bleibt jedoch begrenzt. Dies deutet darauf hin,dass das Aufmerksamkeitsmechanismus in Transformers hauptsächlich für die globale Merkmalsaggregation ausgelegt ist,was nicht natürlich für den Bildabgleich geeignet ist. Demgemäß schlagen wir einen neuen vereinfachten Decoder vor,der die vollständige Aufmerksamkeitsimplementierung mit softmax-Gewichtung fallen lässtund nur die Berechnung der Ähnlichkeit zwischen Abfrage- und Schlüsselbildern beibehält.Zusätzlich werden globales Max-Pooling und ein Multilayer-Perceptron (MLP)-Kopf angewendet,um das Abgleichsergebnis zu dekodieren. Auf diese Weise ist der vereinfachte Decoder rechnerisch effizienterund gleichzeitig effektiver für den Bildabgleich. Die vorgeschlagene Methode, TransMatcher genannt,erreicht den Stand der Technik in der allgemeinen Person-Wiedererkennung (re-identification),mit bis zu 6,1 % und 5,7 % Leistungssteigerungen im Rank-1 und mAP jeweils auf mehreren gängigen Datensätzen.Der Code ist unter https://github.com/ShengcaiLiao/QAConv verfügbar.