PADS: Policy-Adapted Sampling für die visuelle Ähnlichkeitslernen

Das Lernen visueller Ähnlichkeit erfordert die Erfassung von Beziehungen, typischerweise zwischen Dreiergruppen von Bildern. Obwohl Triplet-Ansätze leistungsfähig sind, bleibt ihre rechnerische Komplexität in der Regel so hoch, dass das Training sich nur auf eine Teilmenge aller möglichen Trainingstripel beschränkt. Daher sind Sampling-Strategien, die entscheiden, wann welcher Trainingsbeispiel verwendet wird, entscheidend. Derzeit dominieren feste oder Curriculum-Sampling-Strategien, die vor Beginn des Trainings festgelegt werden. Das Problem erfordert jedoch tatsächlich ein Sampling-Verfahren, das sich dynamisch an den aktuellen Zustand der Ähnlichkeitsdarstellung während des Trainings anpasst. Wir nutzen daher Verstärkungslernen und lassen ein Lehrernetzwerk die Sampling-Verteilung basierend auf dem aktuellen Zustand des Lernernetzwerks anpassen, welches die visuelle Ähnlichkeit repräsentiert. Experimente auf Benchmark-Datensätzen mit standardmäßigen Triplet-basierten Verlustfunktionen zeigen, dass unsere adaptive Sampling-Strategie feste Sampling-Strategien deutlich übertrifft. Zudem erreichen wir, obwohl unsere adaptive Sampling-Strategie lediglich auf Basis-Frame-Works für Triplet-Lernen aufgesetzt ist, wettbewerbsfähige Ergebnisse gegenüber state-of-the-art-Verfahren, die zusätzliche Lernsignale oder starke Ensemble-Architekturen einsetzen. Der Code ist unter https://github.com/Confusezius/CVPR2020_PADS verfügbar.