TransforMatcher: Match-to-Match Attention für semantische Korrespondenz

Die Herstellung von Korrespondenzen zwischen Bildern bleibt eine herausfordernde Aufgabe, insbesondere bei erheblichen Erscheinungsänderungen infolge unterschiedlicher Betrachtungswinkel oder innerhalb-klassischer Variabilität. In dieser Arbeit stellen wir einen leistungsfähigen semantischen Bildübereinstimmungslerner vor, der als TransforMatcher bezeichnet wird und sich an dem Erfolg von Transformer-Netzwerken in visuellen Domänen orientiert. Im Gegensatz zu bestehenden Ansätzen auf Basis von Faltungs- oder Aufmerksamkeitsmechanismen führt TransforMatcher eine globale Match-zu-Match-Aufmerksamkeit durch, um die genaue Lokalisierung von Übereinstimmungen zu ermöglichen und diese dynamisch zu verfeinern. Um mit einer großen Anzahl von Übereinstimmungen in einer dichten Korrelationskarte umgehen zu können, entwickeln wir eine leichtgewichtige Aufmerksamkeitsarchitektur, die globale Match-zu-Match-Interaktionen berücksichtigt. Zudem schlagen wir vor, eine mehrkanalige Korrelationskarte zur Verfeinerung zu nutzen, wobei die mehrstufigen Scores als Merkmale statt eines einzelnen Scores behandelt werden, um die reichhaltigeren schichtweisen Semantiken voll auszunutzen. In Experimenten erreicht TransforMatcher eine neue State-of-the-Art-Leistung auf dem SPair-71k-Datensatz und verhält sich auf dem PF-PASCAL-Datensatz auf gleichem Niveau wie bestehende SOTA-Methoden.