GMTR: Graph Matching Transformers

Vision-Transformer (ViT) wurden kürzlich auch für visuelle Matching-Aufgaben jenseits von Objektdetektion und Segmentierung eingesetzt. Allerdings vernachlässigt die ursprüngliche Gitter-Zerlegungsstrategie von ViTs die räumliche Information der Keypoints, was die Empfindlichkeit gegenüber lokalen Informationen einschränkt. Daher schlagen wir QueryTrans (Query Transformer) vor, das einen Cross-Attention-Modul und eine auf Keypoints basierende Zentrumsschnitt-Strategie verwendet, um eine verbesserte Extraktion räumlicher Informationen zu ermöglichen. Darüber hinaus integrieren wir einen Graph-Attention-Modul und entwickeln einen transformerbasierten Ansatz für Graphen-Matching, namens GMTR (Graph Matching Transformers), bei dem die kombinatorische Natur des Graphen-Matching-Problems durch einen graphenbasierten Transformer-Neural-Solver adressiert wird. Auf standardisierten GM-Benchmarks zeigt GMTR wettbewerbsfähige Leistung gegenüber den State-of-the-Art (SOTA)-Architekturen. Insbesondere erreicht GMTR auf Pascal VOC eine Genauigkeit von $\mathbf{83,6\,\%}$, was $\mathbf{0,9\,\%}$ über der SOTA-Architektur liegt. Auf Spair-71k zeigt GMTR großes Potenzial und übertrifft die meisten vorherigen Ansätze. Gleichzeitig verbessert QueryTrans die Genauigkeit von NGMv2 auf Pascal VOC von $80,1\,\%$ auf $\mathbf{83,3\,\%}$ und die von BBGM von $79,0\,\%$ auf $\mathbf{84,5\,\%}$. Auf Spair-71k steigert QueryTrans die Genauigkeit von NGMv2 von $80,6\,\%$ auf $\mathbf{82,5\,\%}$ und die von BBGM von $82,1\,\%$ auf $\mathbf{83,9\,\%}$. Der Quellcode wird öffentlich verfügbar gemacht.