2 个月前

计算机视觉

Minglei Shi Haolin Wang Borui Zhang Wenzhao Zheng Bohan Zeng Ziyang Yuan Xiaoshi Wu Yuanxing Zhang Huan Yang Xintao Wang

摘要

基于视觉基础模型（Visual Foundation Model, VFM）表征的视觉生成，为整合视觉理解、感知与生成提供了一条极具前景的统一路径。尽管这一方向潜力巨大，但目前仍鲜有研究探索在VFM表征空间内完全训练大规模文本到图像扩散模型。为填补这一空白，我们对SVG（Self-supervised representations for Visual Generation）框架进行扩展，提出SVG-T2I，实现直接在VFM特征域内进行高质量文本到图像合成。通过利用标准的文本到图像扩散生成流程，SVG-T2I取得了具有竞争力的性能表现，在GenEval上达到0.75分，在DPG-Bench上达到85.78分，充分验证了VFM在生成任务中所具备的内在表征能力。为推动以表征驱动的视觉生成研究，我们已将该项目全面开源，包括自编码器、生成模型，以及其训练、推理与评估全流程和预训练权重，供学术界和工业界进一步研究与应用。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

2 个月前

计算机视觉

Minglei Shi Haolin Wang Borui Zhang Wenzhao Zheng Bohan Zeng Ziyang Yuan Xiaoshi Wu Yuanxing Zhang Huan Yang Xintao Wang

摘要

基于视觉基础模型（Visual Foundation Model, VFM）表征的视觉生成，为整合视觉理解、感知与生成提供了一条极具前景的统一路径。尽管这一方向潜力巨大，但目前仍鲜有研究探索在VFM表征空间内完全训练大规模文本到图像扩散模型。为填补这一空白，我们对SVG（Self-supervised representations for Visual Generation）框架进行扩展，提出SVG-T2I，实现直接在VFM特征域内进行高质量文本到图像合成。通过利用标准的文本到图像扩散生成流程，SVG-T2I取得了具有竞争力的性能表现，在GenEval上达到0.75分，在DPG-Bench上达到85.78分，充分验证了VFM在生成任务中所具备的内在表征能力。为推动以表征驱动的视觉生成研究，我们已将该项目全面开源，包括自编码器、生成模型，以及其训练、推理与评估全流程和预训练权重，供学术界和工业界进一步研究与应用。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供