Semantische Korrespondenz als ein Optimaler Transportproblem

Die Herstellung dichter Korrespondenzen zwischen semantisch ähnlichen Bildern ist eine herausfordernde Aufgabe. Aufgrund der großen intra-klassischen Variabilität und der Hintergrundstörungen treten in aktuellen Ansätzen zwei häufige Probleme auf. Erstens werden viele Pixel in einem Quellbild einem einzigen Zielpixel zugeordnet, also eine „vielen-zu-einem“-Zuordnung. Zweitens werden einige Objektpixel den Hintergrundpixeln zugeordnet, was als „Hintergrundzuordnung“ bezeichnet wird. Wir lösen das erste Problem durch globale Merkmalszuordnung, die die Gesamtkorrelation zwischen den Bildern maximiert, um eine globale optimale Zuordnungsmatrix zu erzielen. Durch die Einhaltung von Zeilen- und Spaltensummenbeschränkungen auf der Zuordnungsmatrix wird eine ausgewogene Lösung induziert, wodurch die „vielen-zu-einem“-Zuordnung unterdrückt wird. Das zweite Problem lösen wir, indem wir eine Treppenfunktion auf die Klassenaktivierungskarten anwenden, um die Bedeutung der Pixel in vier Stufen – von Vordergrund zu Hintergrund – neu zu gewichten. Der gesamte Prozess wird in einen einheitlichen Optimal-Transport-Algorithmus integriert, indem das Maximierungsproblem in die Formulierung des Optimalen Transports überführt und die Treppengewichte als empirische Verteilungen in den Optimal-Transport-Algorithmus eingebettet werden. Der vorgeschlagene Algorithmus erreicht eine state-of-the-art-Leistung auf vier Benchmark-Datensätzen. Insbesondere wird auf dem großskaligen SPair-71k-Datensatz eine relative Verbesserung um 26 % erzielt.