
摘要
基于视觉基础模型(Visual Foundation Model, VFM)表征的视觉生成,为整合视觉理解、感知与生成提供了一条极具前景的统一路径。尽管这一方向潜力巨大,但目前仍鲜有研究探索在VFM表征空间内完全训练大规模文本到图像扩散模型。为填补这一空白,我们对SVG(Self-supervised representations for Visual Generation)框架进行扩展,提出SVG-T2I,实现直接在VFM特征域内进行高质量文本到图像合成。通过利用标准的文本到图像扩散生成流程,SVG-T2I取得了具有竞争力的性能表现,在GenEval上达到0.75分,在DPG-Bench上达到85.78分,充分验证了VFM在生成任务中所具备的内在表征能力。为推动以表征驱动的视觉生成研究,我们已将该项目全面开源,包括自编码器、生成模型,以及其训练、推理与评估全流程和预训练权重,供学术界和工业界进一步研究与应用。