S2SD: Simultane ähnlichkeitsbasierte Selbst-Distillation für tiefe Metrik-Lernverfahren

Deep Metric Learning (DML) stellt ein entscheidendes Werkzeug für visuelle Ähnlichkeitsaufgaben und Zero-Shot-Anwendungen dar, indem es generalisierende Embedding-Räume lernt. Obwohl jüngste Arbeiten im Bereich des DML eine starke Leistungssättigung über verschiedene Trainingsziele hinweg zeigen, ist bekannt, dass die Generalisierungsfähigkeit mit der Dimensionalität des Embedding-Raums zunimmt. Allerdings führen hochdimensionale Embeddings auch zu höheren Abfragekosten für nachgeschaltete Anwendungen. Um dies zu beheben, schlagen wir \emph{Simultaneous Similarity-based Self-distillation (S2SD)} vor. S2SD erweitert das DML durch Knowledge Distillation aus zusätzlichen, hochdimensionalen Embedding- und Merkmalsräumen, um während des Trainings komplementäre Kontextinformationen zu nutzen, während die Kosten zur Testzeit unverändert bleiben und die Trainingszeit praktisch unverändert bleibt. Experimente und Ablationen an verschiedenen Zielfunktionen und etablierten Benchmarks zeigen, dass S2SD Erinnerungsraten (Recall@1) um bis zu 7 Prozent verbessert und zudem eine neue State-of-the-Art erreicht. Der Quellcode ist unter https://github.com/MLforHealth/S2SD verfügbar.