STIR: Siamese Transformer für die Nachverarbeitung der Bildretrieval

Aktuelle Ansätze der Metrik-Learning für die Bildretrieval basieren typischerweise auf der Lernung eines informativen latenten Repräsentationsraums, in dem einfache Maßnahmen wie die Kosinus-Distanz gut funktionieren. Neuere state-of-the-art-Methoden wie HypViT wandern hin zu komplexeren Embedding-Räumen, die zwar bessere Ergebnisse liefern können, jedoch schwerer in Produktionsumgebungen skaliert werden können. In dieser Arbeit konstruieren wir zunächst ein vereinfachtes Modell auf Basis des Triplet-Loss mit Hard-Negative-Mining, das auf dem Stand der Technik liegt, jedoch diese Nachteile nicht aufweist. Zweitens stellen wir einen neuartigen Ansatz für die Nachverarbeitung bei der Bildretrieval vor, genannt Siamese Transformer for Image Retrieval (STIR), der mehrere Top-Ausgaben in einem einzigen Vorwärtsdurchlauf neu bewertet. Im Gegensatz zu zuvor vorgeschlagenen Reranking-Transformern basiert STIR nicht auf der Extraktion globaler/lokalen Merkmale, sondern vergleicht direkt ein Abfragebild mit einem abgerufenen Kandidaten auf Pixel-Ebene mittels Aufmerksamkeitsmechanismus. Der resultierende Ansatz definiert eine neue state-of-the-art-Leistung auf Standard-Datensätzen für die Bildretrieval: Stanford Online Products und DeepFashion In-shop. Zudem veröffentlichen wir den Quellcode unter https://github.com/OML-Team/open-metric-learning/tree/main/pipelines/postprocessing/ sowie eine interaktive Demo unseres Ansatzes unter https://dapladoc-oml-postprocessing-demo-srcappmain-pfh2g0.streamlit.app/