Esquissez-moi cette chaussure

Nous étudions le problème de la recherche d’images basée sur des croquis à granularité fine (SBIR), dans lequel des croquis réalisés à main levée par l’humain servent de requêtes pour effectuer une recherche d’images au niveau de l’instance. Il s’agit d’une tâche extrêmement difficile, car (i) les comparaisons visuelles doivent non seulement être à granularité fine, mais aussi effectuées à travers des domaines différents, (ii) les croquis à main levée (au doigt) sont hautement abstraits, ce qui rend la correspondance à granularité fine plus complexe, et surtout (iii) les jeux de données annotés, croisant les domaines croquis-photo, requis pour l’entraînement sont rares, ce qui pose problème à de nombreuses techniques de pointe en apprentissage automatique. Dans cet article, pour la première fois, nous abordons tous ces défis de manière conjointe, ouvrant la voie vers les capacités nécessaires à un système commercial de recherche d’images basée sur des croquis. Nous introduisons une nouvelle base de données comprenant 1 432 paires croquis-photo provenant de deux catégories, enrichie de 32 000 annotations de classement par triplets à granularité fine. Nous développons ensuite un modèle profond de classement par triplets pour la SBIR au niveau de l’instance, accompagné d’une stratégie originale d’augmentation des données et d’un pré-entraînement progressif (staged pre-training) afin de pallier le manque de données d’entraînement à granularité fine. Des expérimentations étendues sont menées afin d’apporter diverses insights sur les défis liés à la suffisance des données et à la prévention du surajustement (over-fitting) lors de l’entraînement de réseaux profonds pour des tâches de classement croisant des domaines à granularité fine.