Mehrskalige Übereinstimmungsnetzwerke für semantische Korrespondenz

Tiefenmerkmale haben sich in zahlreichen vorherigen Arbeiten als leistungsfähig erwiesen, um präzise dichte semantische Korrespondenzen zu erzeugen. Dennoch wurde die mehrskalige und pyramidenartige Hierarchie von Faltungsneuralen Netzen bisher nicht ausreichend untersucht, um diskriminative pixelweise Merkmale für semantische Korrespondenzen zu lernen. In diesem Artikel stellen wir ein mehrskaliges Matching-Netzwerk vor, das empfindlich gegenüber geringfügigen semantischen Unterschieden zwischen benachbarten Pixeln ist. Wir folgen einer grob-zu-fein-Strategie und entwickeln ein top-down-orientiertes Merkmals- und Korrespondenzverbesserungsschema, das mit der mehrskaligen Hierarchie tiefer Faltungsneuraler Netze gekoppelt ist. Bei der Merkmalsverbesserung kombiniert die intra-skalare Verbesserung Merkmalskarten gleicher Auflösung aus mehreren Schichten mittels lokaler Selbst-Attention, während die inter-skalare Verbesserung entlang der top-down-Hierarchie höhere Auflösungen von Merkmalskarten „halluziniert“. Zudem lernen wir ergänzende Korrespondenzdetails auf unterschiedlichen Skalen, sodass die Gesamtkorrespondenzbewertung schrittweise durch Merkmale verschiedener semantischer Ebenen verfeinert wird. Unser mehrskaliges Matching-Netzwerk kann einfach end-to-end mit nur wenigen zusätzlichen lernbaren Parametern trainiert werden. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode auf drei etablierten Benchmarks eine state-of-the-art-Leistung mit hoher rechnerischer Effizienz erzielt.