L'efficacité irraisonnable des données bruitées pour la reconnaissance fine-grainée

Les approches actuelles pour la reconnaissance fine procèdent comme suit : premièrement, elles recrutent des experts pour annoter un ensemble de données d'images, en collectant éventuellement des données plus structurées sous forme d'annotations de parties et de boîtes englobantes. Deuxièmement, elles entraînent un modèle en utilisant ces données. Dans le but de résoudre la reconnaissance fine, nous introduisons une approche alternative qui exploite des données gratuites et bruyantes provenant du web ainsi que des méthodes simples et génériques de reconnaissance. Cette approche présente des avantages tant sur le plan de la performance que de l'évolutivité. Nous démontrons son efficacité sur quatre ensembles de données fins-grains, surpassant largement l'état actuel de l'art sans même la collecte manuelle d'une seule étiquette, et nous présentons par ailleurs les premiers résultats concernant son évolutivité à plus de 10 000 catégories fines-grains. Quantitativement, nous obtenons des précisions top-1 de 92,3 % sur CUB-200-2011, 85,4 % sur Birdsnap, 93,4 % sur FGVC-Aircraft et 80,8 % sur Stanford Dogs sans utiliser leurs ensembles d'entraînement annotés. Nous comparons notre approche à une approche d'apprentissage actif pour l'élargissement des ensembles de données fins-grains.