vor 2 Monaten

Feinabstimmung der CNN-Bildsuche ohne menschliche Annotation

Filip Radenović; Giorgos Tolias; Ondřej Chum

Abstract

BildDeskriptoren, die auf den Aktivierungen von Faltungsneuronalen Netzen (CNNs) basieren, haben sich aufgrund ihrer diskriminativen Leistungsfähigkeit, der Kompaktheit der Darstellung und der Sucheffizienz im Bildretrieval durchgesetzt. Das Training von CNNs, sei es vom Grundmodell aus oder durch Feinabstimmung, erfordert eine große Menge an annotierten Daten, wobei oft eine hohe Qualität der Annotation entscheidend ist. In dieser Arbeit schlagen wir vor, CNNs für das Bildretrieval vollautomatisch an einer großen Sammlung ungeordneter Bilder zu feinjustieren. Rekonstruierte 3D-Modelle, die durch fortschrittliche Methoden des Retrievals und der Struktur aus Bewegung (Structure from Motion) erhalten werden, leiten die Auswahl der Trainingsdaten. Wir zeigen, dass sowohl schwierige positive als auch schwierige negative Beispiele, die durch Ausnutzung der Geometrie und der Kameraspositionen aus den 3D-Modellen gewählt werden, die Leistungsfähigkeit des speziellen Objekt-Retrievals verbessern. Die diskriminativ gelernte Weißen (Whitening) des CNN-Deskriptors aus denselben Trainingsdaten übertrifft die häufig verwendete PCA-Weißen. Wir schlagen ein neues trainierbares Generalisierte-Mittelwert (GeM)-Pooling-Layer vor, das Maximum- und Durchschnittspooling verallgemeinert und zeigen, dass es die Leistung des Retrievals steigert. Die Anwendung der vorgeschlagenen Methode auf das VGG-Netzwerk erreicht den aktuellen Stand der Technik auf den Standard-Benchmarks: Oxford Buildings-, Paris- und Holidays-Datensätzen.