Édition de texte dans le monde réel

Dans cet article, nous nous intéressons à l'édition de texte dans des images naturelles, qui vise à remplacer ou modifier un mot dans l'image source par un autre tout en conservant son apparence réaliste. Cette tâche est complexe, car les styles du fond et du texte doivent être préservés afin que l'image éditée soit visuellement indiscernable de l'image source. Plus précisément, nous proposons un réseau de conservation de style (SRNet) entièrement entraînable en bout à bout, composé de trois modules : le module de conversion de texte, le module d'infrastructure du fond et le module de fusion. Le module de conversion de texte modifie le contenu textuel de l'image source pour le transformer en texte cible tout en maintenant le style original du texte. Le module d'infrastructure du fond efface le texte original et remplit la région textuelle avec une texture appropriée. Le module de fusion combine les informations provenant des deux modules précédents et génère les images textuelles éditées. Selon nos connaissances, ce travail constitue la première tentative d'édition de texte dans des images naturelles au niveau des mots. Les effets visuels ainsi que les résultats quantitatifs sur des jeux de données synthétiques et réels (ICDAR 2013) confirment pleinement l'importance et la nécessité de la décomposition modulaire. Nous avons également mené des expériences approfondies pour valider l'utilité de notre méthode dans diverses applications réelles telles que la synthèse d'images textuelles, la traduction en réalité augmentée (AR), le masquage d'informations, etc.Note : - "background inpainting" a été traduit par "infrastructure du fond" pour éviter une traduction trop littérale et rendre le terme plus compréhensible en français.- "word level" a été traduit par "au niveau des mots" pour maintenir la clarté.- L'acronyme "SRNet" a été conservé tel quel, car il s'agit d'un nom propre technique.- Les noms propres comme "ICDAR 2013" ont été conservés sans modification.