17 天前

AnyText:多语言视觉文本生成与编辑

Yuxiang Tuo, Wangmeng Xiang, Jun-Yan He, Yifeng Geng, Xuansong Xie
AnyText:多语言视觉文本生成与编辑
摘要

基于扩散模型的文本到图像生成技术近年来取得了令人瞩目的进展。尽管当前图像合成技术已高度先进,能够生成高保真度的图像,但在关注生成图像中的文本区域时,仍容易暴露出问题。为解决这一挑战,我们提出AnyText——一种基于扩散模型的多语言视觉文本生成与编辑模型,专注于在图像中实现准确且连贯的文本渲染。AnyText采用包含两个核心组件的扩散流水线:辅助隐空间模块与文本嵌入模块。前者利用文本字形、位置信息及掩码图像作为输入,生成用于文本生成或编辑的隐空间特征;后者则通过OCR模型将笔画数据编码为嵌入向量,与分词器生成的图像标题嵌入向量融合,从而生成与背景无缝融合的文本内容。在训练过程中,我们引入了文本控制扩散损失(text-control diffusion loss)与文本感知损失(text perceptual loss),进一步提升了文本生成的准确性。据我们所知,AnyText是首个实现多语言视觉文本生成的系统,能够生成多种语言的字符。值得注意的是,AnyText可无缝集成至社区现有的扩散模型中,实现精准的文本渲染与编辑。经过大量评估实验验证,我们的方法在各项指标上均显著优于现有所有方法。此外,我们构建了首个大规模多语言图文数据集AnyWord-3M,包含300万张图像-文本对,并涵盖多种语言的OCR标注信息。基于该数据集,我们进一步提出了AnyText-benchmark,用于系统评估视觉文本生成的准确性与质量。本项目将开源至https://github.com/tyxsspa/AnyText,旨在推动文本生成技术的持续发展与进步。