AnyText: Multilingual Visual Text Generation and Editing

Kürzlich haben Diffusionsmodelle für Text-zu-Bild eine beeindruckende Entwicklung erfahren. Obwohl die derzeitige Technologie zur Bildsynthese äußerst fortgeschritten ist und Bilder mit hoher Fidelität generieren kann, bleibt es weiterhin möglich, bei einer genauen Betrachtung des Textbereichs in den generierten Bildern Unstimmigkeiten aufzudecken. Um dieses Problem anzugehen, stellen wir AnyText vor – ein auf Diffusionsmodellen basierendes mehrsprachiges Modell zur visuellen Textgenerierung und -bearbeitung, das sich gezielt auf die präzise und kohärente Darstellung von Text in Bildern konzentriert. AnyText besteht aus einer Diffusions-Pipeline mit zwei zentralen Komponenten: einem Hilfslatenten-Modul und einem Text-Embedding-Modul. Letzteres nutzt eine OCR-Modellierung, um Strichdaten zu Embeddings zu kodieren, die mit den aus dem Tokenizer stammenden Bildbeschreibung-Embeddings verschmolzen werden, um Texte zu generieren, die nahtlos in den Hintergrund integriert sind. Das erste Modul verwendet Eingabedaten wie Textglyphen, Positionen und maskierte Bilder, um latente Merkmale für die Textgenerierung oder -bearbeitung zu erzeugen. Zur Verbesserung der Schreibgenauigkeit wurde während des Trainings sowohl eine textgesteuerte Diffusionsverlustfunktion als auch ein textperzeptioneller Verlust eingesetzt. Mit der vorliegenden Arbeit gelingt es AnyText erstmals, Zeichen in mehreren Sprachen präzise zu generieren – sofern uns bekannt, handelt es sich hierbei um die erste Studie, die die mehrsprachige visuelle Textgenerierung adressiert. Besonders hervorzuheben ist, dass AnyText nahtlos in bestehende Diffusionsmodelle aus der Forschungsgemeinschaft integriert werden kann, um Texte präzise zu rendern oder zu bearbeiten. Nach umfangreichen Evaluierungsexperimenten übertrifft unser Ansatz alle anderen Ansätze deutlich. Zudem stellen wir den ersten großskaligen mehrsprachigen Datensatz visueller Textbilder vor: AnyWord-3M, der 3 Millionen Bild-Text-Paare mit OCR-Anmerkungen in mehreren Sprachen umfasst. Auf Basis dieses Datensatzes entwickeln wir den AnyText-Benchmark zur Evaluierung der Genauigkeit und Qualität der visuellen Textgenerierung. Unser Projekt wird auf https://github.com/tyxsspa/AnyText öffentlich zugänglich gemacht, um die Weiterentwicklung und Förderung der Textgenerierungstechnologie zu unterstützen.