Stichprobenziehung spielt in der tiefen Einbettungslernung eine wichtige Rolle.

Tiefe Einbettungen beantworten eine einfache Frage: Wie ähnlich sind zwei Bilder? Das Lernen dieser Einbettungen bildet die Grundlage von Verifizierung, Zero-Shot-Lernen und visueller Suche. Die prominentesten Ansätze optimieren ein tiefes Faltungsnetzwerk (Convolutional Neural Network) mit einer geeigneten Kostenfunktion, wie zum Beispiel dem Kontrastivverlust (contrastive loss) oder dem Triplettenverlust (triplet loss). Während eine reiche Reihe von Arbeiten sich ausschließlich auf die Kostenfunktionen konzentriert, zeigen wir in diesem Papier, dass die Auswahl von Trainingsbeispielen eine gleichwertige Rolle spielt. Wir schlagen eine distanzgewichtete Stichprobenerhebung vor, die informativere und stabile Beispiele als herkömmliche Ansätze auswählt. Darüber hinaus zeigen wir, dass ein einfacher margenbasierter Verlust ausreicht, um alle anderen Kostenfunktionen zu übertreffen. Wir evaluieren unseren Ansatz auf den Datensätzen Stanford Online Products, CAR196 und CUB200-2011 für Bildsuche und Clustering sowie auf dem LFW-Datensatz für Gesichtsverifizierung. Unsere Methode erzielt den aktuellen Stand der Technik (state-of-the-art performance) in allen diesen Aufgaben.