STIR : Transformer siamois pour le post-traitement de la recherche d'images

Les approches actuelles d'apprentissage métrique pour la recherche d'images reposent généralement sur l'apprentissage d'un espace de représentations latentes informatives, dans lequel des méthodes simples telles que la distance cosinus fonctionnent efficacement. Les méthodes les plus récentes de pointe, comme HypViT, s'orientent vers des espaces d'encodage plus complexes, susceptibles de produire de meilleurs résultats mais plus difficiles à scaler dans des environnements de production. Dans ce travail, nous proposons tout d'abord un modèle plus simple basé sur la perte de triplet avec exploitation de négatifs difficiles, qui atteint un niveau d'état de l'art sans présenter ces inconvénients. Ensuite, nous introduisons une nouvelle approche de post-traitement pour la recherche d'images, nommée Siamese Transformer for Image Retrieval (STIR), qui réordonne plusieurs résultats top en une seule passe avant-gardante. Contrairement aux Transformers de réordonnancement précédemment proposés, STIR ne repose pas sur une extraction de caractéristiques globales ou locales, mais compare directement une image de requête et un candidat récupéré au niveau des pixels, en exploitant un mécanisme d'attention. L'approche ainsi obtenue établit un nouvel état de l'art sur des jeux de données standard de recherche d'images : Stanford Online Products et DeepFashion In-shop. Nous mettons également à disposition le code source à l'adresse suivante : https://github.com/OML-Team/open-metric-learning/tree/main/pipelines/postprocessing/ ainsi qu'une démonstration interactive de notre méthode à l'adresse : https://dapladoc-oml-postprocessing-demo-srcappmain-pfh2g0.streamlit.app/