Augmentation de l'arête pour la reconnaissance à grande échelle de croquis sans croquis

Ce travail aborde l'élargissement de la tâche de classification de croquis à un grand nombre de catégories. La collecte de croquis pour l'entraînement est un processus lent et fastidieux qui, jusqu'à présent, a empêché toute tentative de reconnaissance de croquis à grande échelle. Nous surmontons le manque de données d'entraînement en exploitant des collections d'images naturelles étiquetées, plus faciles à obtenir. Pour combler le fossé entre les domaines, nous présentons une nouvelle technique d'augmentation adaptée à la tâche d'apprentissage de la reconnaissance de croquis à partir d'un ensemble d'entraînement d'images naturelles.Une randomisation est introduite dans les paramètres de détection et de sélection des contours. Les images naturelles sont traduites dans un domaine pseudo-nouveau appelé "contours fins binaires randomisés" (rBTE), qui est utilisé comme domaine d'entraînement au lieu des images naturelles. La capacité à élargir est démontrée par l'entraînement d'une reconnaissance de croquis basée sur des CNN avec plus de 2,5 fois plus de catégories que celles utilisées précédemment. À cette fin, un jeu de données composé d'images naturelles provenant de 874 catégories est construit en combinant plusieurs jeux de données populaires en vision par ordinateur. Les catégories sont choisies pour être appropriées à la reconnaissance de croquis. Pour évaluer les performances, un sous-ensemble de 393 catégories avec des croquis a également été recueilli.