
摘要
我们介绍了一种名为Calligrapher的新颖扩散框架,该框架创新性地将高级文本定制与艺术排版相结合,适用于数字书法和设计应用。针对字体排版定制中精确风格控制和数据依赖性的挑战,我们的框架提出了三项关键技术贡献。首先,我们开发了一种自蒸馏机制,利用预训练的文本到图像生成模型本身以及大型语言模型,自动构建以风格为中心的排版基准。其次,我们引入了一种通过可训练风格编码器实现的局部风格注入框架,该编码器包括Qformer和线性层,用于从参考图像中提取鲁棒的风格特征。此外,还采用了上下文生成机制,直接将参考图像嵌入去噪过程,进一步增强了目标风格的精细对齐。广泛的定量和定性评估表明,Calligrapher在多种字体和设计场景下能够准确再现复杂的风格细节并精确控制字形位置。通过自动化高质量、视觉一致的排版,Calligrapher超越了传统模型,为数字艺术、品牌设计和情境排版设计领域的创意从业者提供了强大支持。