HyperAIHyperAI

Command Palette

Search for a command to run...

Console
18 小时前

SVG-T2I:在无需变分自编码器的情况下扩展文本到图像的潜在扩散模型

SVG-T2I:在无需变分自编码器的情况下扩展文本到图像的潜在扩散模型

摘要

基于视觉基础模型(Visual Foundation Model, VFM)表征的视觉生成,为整合视觉理解、感知与生成提供了一条极具前景的统一路径。尽管这一方向潜力巨大,但目前仍鲜有研究探索在VFM表征空间内完全训练大规模文本到图像扩散模型。为填补这一空白,我们对SVG(Self-supervised representations for Visual Generation)框架进行扩展,提出SVG-T2I,实现直接在VFM特征域内进行高质量文本到图像合成。通过利用标准的文本到图像扩散生成流程,SVG-T2I取得了具有竞争力的性能表现,在GenEval上达到0.75分,在DPG-Bench上达到85.78分,充分验证了VFM在生成任务中所具备的内在表征能力。为推动以表征驱动的视觉生成研究,我们已将该项目全面开源,包括自编码器、生成模型,以及其训练、推理与评估全流程和预训练权重,供学术界和工业界进一步研究与应用。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SVG-T2I:在无需变分自编码器的情况下扩展文本到图像的潜在扩散模型 | 论文 | HyperAI超神经