Tiefes überwachtes Hashing für schnelle Bildabfrage

In diesem Artikel präsentieren wir eine neue Hashing-Methode zur Lernung kompakter binärer Codes für eine hochgradig effiziente Bildretrieval-Task auf großskaligen Datensätzen. Während die komplexen Variationen im Bildinhalt weiterhin eine erhebliche Herausforderung für eine zuverlässige Recherche darstellen, berücksichtigen wir den jüngsten Fortschritt von Convolutional Neural Networks (CNNs) bei der Lernung robuster Bildrepräsentationen für verschiedene visuelle Aufgaben. Aus diesem Grund schlagen wir eine neuartige tiefgeleitete überwachte Hashing-Methode (Deep Supervised Hashing, DSH) vor, um kompakte,相似itätsbewahrende binäre Codes für umfangreiche Bilddatenmengen zu erlernen. Konkret entwerfen wir eine CNN-Architektur, die Paare von Bildern (ähnlich/unterschiedlich) als Eingabedaten verwendet und die Ausgabe jedes Bildes dazu anregt, diskrete Werte (z. B. +1/-1) anzunähern. Hierzu wird eine speziell entworfene Verlustfunktion eingesetzt, die die Diskriminierbarkeit des Ausgaberaums maximiert, indem sie die überwachten Informationen aus den Eingabebildpaaren kodiert, und gleichzeitig eine Regularisierung auf den reellen Ausgabewerten vornimmt, um diese der gewünschten diskreten Werte anzunähern. Für die Bildretrieval-Anwendung können neue Eingabebilder einfach durch die Netzwerkstruktur propagiert und deren Netzwerk-Ausgaben anschließend quantisiert werden, um eine binäre Codierung zu erzeugen. Umfangreiche Experimente auf zwei großskaligen Datensätzen, CIFAR-10 und NUS-WIDE, zeigen die vielversprechende Leistungsfähigkeit unserer Methode im Vergleich zu aktuellen State-of-the-Art-Verfahren.