Command Palette
Search for a command to run...
GMTR: Graph Matching Transformers
GMTR: Graph Matching Transformers
Jinpei Guo Shaofeng Zhang Runzhong Wang Chang Liu Junchi Yan
Zusammenfassung
Vision-Transformer (ViT) wurden kürzlich auch für visuelle Matching-Aufgaben jenseits von Objektdetektion und Segmentierung eingesetzt. Allerdings vernachlässigt die ursprüngliche Gitter-Zerlegungsstrategie von ViTs die räumliche Information der Keypoints, was die Empfindlichkeit gegenüber lokalen Informationen einschränkt. Daher schlagen wir QueryTrans (Query Transformer) vor, das einen Cross-Attention-Modul und eine auf Keypoints basierende Zentrumsschnitt-Strategie verwendet, um eine verbesserte Extraktion räumlicher Informationen zu ermöglichen. Darüber hinaus integrieren wir einen Graph-Attention-Modul und entwickeln einen transformerbasierten Ansatz für Graphen-Matching, namens GMTR (Graph Matching Transformers), bei dem die kombinatorische Natur des Graphen-Matching-Problems durch einen graphenbasierten Transformer-Neural-Solver adressiert wird. Auf standardisierten GM-Benchmarks zeigt GMTR wettbewerbsfähige Leistung gegenüber den State-of-the-Art (SOTA)-Architekturen. Insbesondere erreicht GMTR auf Pascal VOC eine Genauigkeit von 83,6%, was 0,9% über der SOTA-Architektur liegt. Auf Spair-71k zeigt GMTR großes Potenzial und übertrifft die meisten vorherigen Ansätze. Gleichzeitig verbessert QueryTrans die Genauigkeit von NGMv2 auf Pascal VOC von 80,1% auf 83,3% und die von BBGM von 79,0% auf 84,5%. Auf Spair-71k steigert QueryTrans die Genauigkeit von NGMv2 von 80,6% auf 82,5% und die von BBGM von 82,1% auf 83,9%. Der Quellcode wird öffentlich verfügbar gemacht.