HyperAIHyperAI
il y a 18 jours

Reconnaissance de polices visuelles à grande échelle

{Eli Shechtman, Tony X. Han, Aseem Agarwala, Jianchao Yang, Hailin Jin, Guang Chen, Jonathan Brandt}
Reconnaissance de polices visuelles à grande échelle
Résumé

Ce papier aborde le problème de la reconnaissance de police visuelle à grande échelle (VFR), dont l’objectif est l’identification automatique de la police, du poids et de l’inclinaison du texte contenu dans une image ou une photo, sans aucune connaissance préalable du contenu. Bien que la reconnaissance de police visuelle présente de nombreuses applications pratiques, elle a largement été négligée par la communauté du traitement d’image. Pour relever ce défi, nous construisons un grand jeu de données comprenant 2 420 classes de polices, dont l’échelle dépasse aisément celle de la plupart des jeux de données de catégorisation d’images utilisés en vision par ordinateur. Étant donné que la reconnaissance de police est intrinsèquement dynamique et ouverte, c’est-à-dire que de nouvelles classes et de nouveaux échantillons pour des catégories existantes sont continuellement ajoutés à la base de données au fil du temps, nous proposons une solution évolutrice fondée sur le classificateur à moyenne de classe la plus proche (NCM). L’algorithme central repose sur une intégration de caractéristiques locales, un apprentissage métrique des caractéristiques locales et une sélection de modèles à marge maximale, ce qui s’inscrit naturellement dans le cadre du NCM et s’avère particulièrement adapté aux problèmes de classification ouverts. Ce nouvel algorithme permet une généralisation efficace aux nouvelles classes et aux nouveaux données avec un coût marginal très faible. Des expériences étendues démontrent que notre approche est très performante sur des images synthétiques, tout en obtenant des résultats prometteurs sur des images du monde réel.