HyperAIHyperAI
il y a 17 jours

TextDiffuser-2 : Libérer le pouvoir des Modèles Linguistiques pour la Rendu de Texte

Jingye Chen, Yupan Huang, Tengchao Lv, Lei Cui, Qifeng Chen, Furu Wei
TextDiffuser-2 : Libérer le pouvoir des Modèles Linguistiques pour la Rendu de Texte
Résumé

Le modèle de diffusion s’est avéré être un modèle génératif puissant ces dernières années, tout en restant un défi pour la génération de texte visuel. Plusieurs méthodes ont atténué ce problème en intégrant une position et un contenu textuels explicites comme guide indiquant où et quoi afficher. Toutefois, ces approches souffrent encore de plusieurs limites, telles qu’une flexibilité et une automatisation restreintes, une capacité limitée à prédire les dispositions (layout), ainsi qu’une diversité de style restreinte. Dans ce papier, nous présentons TextDiffuser-2, visant à exploiter pleinement le potentiel des modèles linguistiques pour la mise en forme du texte. Premièrement, nous fine-tunons un grand modèle linguistique pour la planification de disposition. Ce modèle linguistique est capable de générer automatiquement des mots-clés adaptés à la mise en forme du texte, tout en permettant la modification de la disposition via une interaction conversationnelle. Deuxièmement, nous intégrons le modèle linguistique dans le modèle de diffusion afin d’encoder à la fois la position et le texte au niveau de la ligne. Contrairement aux méthodes précédentes qui utilisaient une guidance fine au niveau des caractères, cette approche produit des images de texte plus diversifiées. Nous menons des expériences approfondies et incluons des études utilisateurs impliquant des participants humains ainsi que GPT-4V, validant ainsi la capacité de TextDiffuser-2 à produire des dispositions et des générations de texte plus rationnelles, avec une diversité accrue. Le code et le modèle seront disponibles à l’adresse \url{https://aka.ms/textdiffuser-2}.