Unüberwachtes Lernen von Landmarken durch Austausch von Deskriptorvektoren

Die Äquivarianz gegenüber zufälligen Bildtransformationen ist eine effektive Methode, um Merkmale von Objektkategorien, wie zum Beispiel die Augen und die Nase im Gesicht, ohne manuelle Überwachung zu lernen. Allerdings garantiert diese Methode nicht explizit, dass die gelernten Merkmale konsistent mit den Veränderungen zwischen verschiedenen Instanzen desselben Objekts sind, wie etwa unterschiedliche Gesichteridentitäten. In dieser Arbeit entwickeln wir einen neuen Ansatz zur Äquivarianzmethode, indem wir darauf hinweisen, dass dichte Landmark-Detektoren als lokale Bildbeschreibungen interpretiert werden können, die invariant gegenüber innerkategorischen Variationen sind. Wir schlagen dann eine direkte Methode vor, um solche Invarianz in der standardmäßigen äquivarianten Verlustfunktion zu erzwingen. Dies tun wir, indem wir Deskriptorvektoren zwischen Bildern verschiedener Objektinstanzen austauschen, bevor wir sie geometrisch abgleichen. Auf diese Weise müssen dieselben Vektoren unabhängig von der spezifischen betrachteten Objektidentität funktionieren. Wir verwenden diesen Ansatz, um Vektoren zu lernen, die gleichzeitig als lokale Beschreibungen und dichte Landmarks interpretiert werden können und dabei die Vorteile beider Kombinieren. Experimente auf Standard-Benchmarks zeigen, dass dieser Ansatz bestehende Methoden übertreffen kann, die Landmarks ohne Überwachung lernen (state-of-the-art performance). Der Code ist unter www.robots.ox.ac.uk/~vgg/research/DVE/ verfügbar.请注意,我已将“state-of-the-art performance”在括号中保留了英文,因为这是一个在科技文献中常用的术语,通常不会被翻译成德语。如果您希望将其翻译为德语,可以替换为“Stand der Technik”。