Tiefes Formvergleichsverfahren

Wir formulieren die Formübereinstimmung als metrisches Lernen mit Faltungsnetzen. Den End-to-End-Prozess der Bildrepräsentation teilen wir in zwei Teile auf. Erstens wählen wir etablierte effiziente Methoden, um die Bilder in Kantenkarten zu verwandeln. Zweitens wird das Netzwerk mit den Kantenkarten von Merkmalsbildern trainiert, die durch einen Struktur-aus-Bewegung-Pipeline (structure-from-motion) automatisch erzeugt werden. Die gelernte Repräsentation wird anhand einer Reihe verschiedener Aufgaben evaluiert und bietet Verbesserungen bei herausfordernden Fällen der Domänenverallgemeinerung, generischen skizzenbasierten Bildsuche oder deren feingranularen Gegenstück. Im Gegensatz zu anderen Methoden, die pro Aufgabe, Objektkategorie oder Domäne ein unterschiedliches Modell lernen, verwenden wir dasselbe Netzwerk in allen unseren Experimenten und erreichen dabei Stand-of-the-Art-Ergebnisse in mehreren Benchmarks.