HyperAIHyperAI
il y a 17 jours

AnyText : Génération et édition multilingues de texte visuel

Yuxiang Tuo, Wangmeng Xiang, Jun-Yan He, Yifeng Geng, Xuansong Xie
AnyText : Génération et édition multilingues de texte visuel
Résumé

Les modèles de diffusion basés sur la génération d’images à partir de texte ont récemment obtenu des résultats remarquables. Bien que la technologie actuelle de synthèse d’images soit hautement avancée et capable de produire des images de haute fidélité, des anomalies peuvent apparaître lorsqu’on se concentre sur les zones textuelles dans les images générées. Pour résoudre ce problème, nous introduisons AnyText, un modèle de génération et d’édition visuelle multilingue basé sur la diffusion, qui se concentre sur la restitution précise et cohérente du texte dans les images. AnyText repose sur une chaîne de diffusion comprenant deux composants principaux : un module latent auxiliaire et un module d’encodage du texte. Le premier utilise des entrées telles que les glyphes textuels, les positions et les images masquées pour générer des caractéristiques latentes adaptées à la génération ou à l’édition du texte. Le second exploite un modèle OCR pour encoder les données de traits en embeddings, qui sont ensuite combinés aux embeddings des légendes d’image fournis par le tokeniseur afin de produire du texte intégré de manière fluide au fond de l’image. Nous avons employé une perte de diffusion contrôlée par le texte ainsi qu’une perte perceptuelle textuelle pendant l’entraînement afin d’améliorer davantage la précision de la typographie. À notre connaissance, AnyText est le premier travail à aborder la génération visuelle multilingue du texte. Il est à noter que AnyText peut être facilement intégré aux modèles de diffusion existants du communautaire afin de générer ou modifier du texte avec précision. Après avoir mené des expériences d’évaluation approfondies, notre méthode s’est avérée nettement supérieure à toutes les autres approches. En outre, nous proposons le premier ensemble de données à grande échelle sur le texte visuel multilingue, nommé AnyWord-3M, comprenant 3 millions de paires image-texte annotées par OCR dans plusieurs langues. À partir de ce jeu de données, nous avons établi AnyText-benchmark, un standard d’évaluation de la précision et de la qualité de la génération de texte visuel. Notre projet sera mis à disposition sous licence open-source sur https://github.com/tyxsspa/AnyText afin de favoriser et promouvoir le développement futur de la technologie de génération de texte.

AnyText : Génération et édition multilingues de texte visuel | Articles de recherche récents | HyperAI