Großmaßstäbliche Bildsuche mit aufmerksamen tiefen lokalen Merkmalen

Wir schlagen einen aufmerksamen lokalen Merkmalsdeskriptor vor, der für die großskalige Bildsuche geeignet ist und als DELF (DEep Local Feature) bezeichnet wird. Der neue Deskriptor basiert auf Faltungsneuronalen Netzen (Convolutional Neural Networks), die ausschließlich mit bildbasierten Anmerkungen auf einem Datensatz von Landmarkenbildern trainiert wurden. Um semantisch nützliche lokale Merkmale für die Bildsuche zu identifizieren, schlagen wir außerdem ein Aufmerksamkeitsmechanismus für die Keypoint-Auswahl vor, der die meisten Netzwerkschichten mit dem Deskriptor teilt. Dieses Framework kann als direkte Ersatzlösung für andere Keypoint-Detektoren und -Deskriptoren zur Bildsuche verwendet werden, was eine präzisere Merkmalszuordnung und geometrische Verifikation ermöglicht. Unser System erzeugt verlässliche Konfidenzwerte, um Fehlalarme abzulehnen – insbesondere ist es robust gegenüber Abfragen, bei denen keine korrekten Übereinstimmungen in der Datenbank vorhanden sind.Um den vorgeschlagenen Deskriptor zu evaluieren, stellen wir einen neuen großen Datensatz vor, der als Google-Landmarks-Datensatz bezeichnet wird. Dieser Datensatz stellt sowohl in der Datenbank als auch in den Abfragen Herausforderungen dar, wie Hintergrundstörungen, teilweise Verdeckung, mehrere Landmarken und Objekte in variabler Größe. Wir zeigen, dass DELF im großskaligen Szenario sowohl globale als auch lokale Deskriptoren des aktuellen Standes der Technik deutlich übertrifft. Der Quellcode und der Datensatz können auf der Projektwebseite abgerufen werden: https://github.com/tensorflow/models/tree/master/research/delf .