Command Palette
Search for a command to run...
TextFuseNet : Détection de texte dans les scènes à l’aide de caractéristiques fusionnées plus riches
TextFuseNet : Détection de texte dans les scènes à l’aide de caractéristiques fusionnées plus riches
Zhe Chen Jian Ye Bo Du Juhua Liu
Résumé
La détection de texte de forme arbitraire dans des scènes naturelles constitue une tâche extrêmement difficile. Contrairement aux approches existantes de détection de texte, qui ne perçoivent les textes que sur la base de représentations fonctionnelles limitées, nous proposons un cadre novateur, nommé TextFuseNet, permettant d’exploiter des caractéristiques plus riches fusionnées pour la détection de texte. Plus précisément, nous proposons de percevoir les textes à trois niveaux de représentations fonctionnelles : au niveau des caractères, au niveau des mots et au niveau global, puis introduisons une nouvelle technique de fusion de représentations textuelles afin d’assurer une détection robuste de texte à forme arbitraire. Cette représentation fonctionnelle multi-niveaux permet de décrire adéquatement les textes en les décomposant en caractères individuels tout en préservant leur sémantique générale. TextFuseNet collecte ensuite et fusionne les caractéristiques textuelles provenant de différents niveaux à l’aide d’une architecture de fusion multi-chemin, capable d’aligner efficacement et de fusionner les différentes représentations. En pratique, le cadre proposé TextFuseNet permet d’apprendre une description plus complète des textes de forme arbitraire, en réduisant les faux positifs et en produisant des résultats de détection plus précis. De plus, notre architecture peut être entraînée avec une supervision faible pour les jeux de données ne disposant pas d’annotations au niveau des caractères. Des expériences menées sur plusieurs jeux de données montrent que TextFuseNet atteint des performances de pointe. Plus précisément, nous obtenons une mesure F de 94,3 % sur ICDAR2013, 92,1 % sur ICDAR2015, 87,1 % sur Total-Text et 86,6 % sur CTW-1500, respectivement.