Trois éléments essentiels à connaître pour améliorer la récupération d'objets
L’objectif de ce travail est la recherche d’objets dans de grandes bases de données d’images, où l’objet est spécifié par une requête image et où la recherche doit être immédiate en temps réel, selon le principe de Video Google [28]. Nous présentons les trois contributions suivantes : (i) une nouvelle méthode de comparaison des descripteurs SIFT (RootSIFT), offrant des performances supérieures sans augmenter les besoins en traitement ni en stockage ; (ii) une méthode originale d’extension de requête, permettant d’apprendre un modèle plus riche pour la requête de manière discriminative, sous une forme adaptée à une recherche immédiate grâce à une utilisation efficace de l’index inversé ; (iii) une amélioration de la méthode d’augmentation d’images proposée par Turcot et Lowe [29], où seules les caractéristiques augmentées qui sont spatialement cohérentes avec l’image augmentée sont conservées. Nous évaluons ces trois méthodes sur plusieurs jeux de données standard (Oxford Buildings 5k et 105k, Paris 6k) et démontrons des améliorations substantielles en termes de performance de recherche tout en préservant des vitesses de recherche immédiates. La combinaison de ces méthodes complémentaires permet d’atteindre un nouveau record de performance sur ces jeux de données.