Lernen der Komposition von Hyperkolonnen für visuelle Korrespondenz

Die Merkmalsdarstellung spielt eine entscheidende Rolle bei der visuellen Korrespondenz, und jüngere Methoden zur Bildübereinstimmung stützen sich auf tief verschachtelte konvolutionale Schichten. Diese Modelle sind jedoch sowohl monolithisch als auch statisch, da sie typischerweise ein bestimmtes Merkmalsniveau – beispielsweise die Ausgabe der letzten Schicht – verwenden und dieses unabhängig von den zu vergleichenden Bildern beibehalten. In dieser Arbeit stellen wir einen neuen Ansatz für die visuelle Korrespondenz vor, der effektive Merkmale dynamisch zusammensetzt, indem er relevante Schichten bedingt durch die zu vergleichenden Bilder nutzt. Inspiriert durch die mehrschichtige Merkmalszusammensetzung im Objektdetektionsbereich und adaptiv inferenzbasierte Architekturen in der Klassifikation lernt die vorgeschlagene Methode, Dynamic Hyperpixel Flow genannt, Merkmalshyperkolonnen in Echtzeit durch Auswahl einer geringen Anzahl relevanter Schichten aus einem tiefen neuronalen Netzwerk zusammenzustellen. Wir belegen die Wirksamkeit des Ansatzes am Beispiel der semantischen Korrespondenz, also der Herstellung von Entsprechungen zwischen Bildern, die unterschiedliche Exemplare derselben Objekt- oder Szenenklasse darstellen. Experimente auf etablierten Benchmarks zeigen, dass die vorgeschlagene Methode die Übereinstimmungsleistung im Vergleich zum Stand der Technik adaptiv und effizient erheblich verbessert.