il y a 8 jours

SPTS : Spotting de texte à point unique

Dezhi Peng, Xinyu Wang, Yuliang Liu, Jiaxin Zhang, Mingxin Huang, Songxuan Lai, Shenggao Zhu, Jing Li, Dahua Lin, Chunhua Shen, Xiang Bai, Lianwen Jin

Voir les détails de l'article

Résumé

Les méthodes existantes de détection et de reconnaissance de texte dans les scènes (dites « spotting ») reposent sur des annotations coûteuses de boîtes englobantes (par exemple, au niveau de la ligne de texte, du mot ou du caractère). Pour la première fois, nous démontrons qu’il est possible d’entraîner des modèles de spotting de texte en scène à l’aide d’une annotation extrêmement peu coûteuse, consistant en un unique point par instance. Nous proposons une méthode end-to-end de spotting de texte en scène, qui traite cette tâche comme un problème de prédiction de séquence. Étant donné une image en entrée, nous formulons les résultats souhaités de détection et de reconnaissance sous la forme d’une séquence de jetons discrets, et utilisons un modèle Transformer auto-régressif pour prédire cette séquence. La méthode proposée est à la fois simple et efficace, et atteint des performances de pointe sur des benchmarks largement utilisés. Plus significativement, nous montrons que les performances ne sont pas très sensibles aux positions des annotations ponctuelles, ce qui signifie qu’elles peuvent être beaucoup plus faciles à annoter, voire générées automatiquement, comparées aux boîtes englobantes qui nécessitent des positions précises. Nous estimons que cette approche pionnière ouvre une opportunité majeure pour des applications de spotting de texte en scène à une échelle bien plus grande que celle envisageable auparavant. Le code est disponible à l’adresse suivante : https://github.com/shannanyinxiang/SPTS.