HyperAIHyperAI

Command Palette

Search for a command to run...

语义与重构同样重要:使表示编码器适用于文本到图像生成与编辑

Abstract

现代潜在扩散模型(Latent Diffusion Models, LDMs)通常在低层级的变分自编码器(Variational Autoencoder, VAE)潜在空间中运行,这类空间主要针对像素级重建进行优化。为了统一视觉生成与理解任务,当前一个日益兴起的趋势是采用来自表示编码器的高维特征作为生成潜在变量。然而,我们通过实证研究识别出该范式中存在的两个根本性挑战:(1)判别性特征空间缺乏紧凑的正则化机制,导致扩散模型容易生成偏离流形的潜在表示,进而引发物体结构不准确的问题;(2)编码器本身在像素级重建能力上的固有薄弱,限制了生成器学习精细几何形状与纹理细节的能力。本文提出了一套系统性框架,用于将面向理解任务的编码器特征适配至生成任务。我们引入了一种语义-像素联合重建目标,对潜在空间进行有效正则化,从而实现将语义信息与细粒度细节压缩至高度紧凑的表示中(96通道,空间下采样比例为16×16)。该设计确保了潜在空间在保持语义丰富性的同时,实现了当前最优的图像重建性能,且其紧凑性足以支持高精度的生成任务。基于这一紧凑表示,我们构建了一个统一的文本到图像生成(Text-to-Image, T2I)与图像编辑模型。在多种特征空间的基准对比实验中,我们验证了所提方法在图像重建质量、收敛速度以及T2I生成与图像编辑任务性能方面均达到当前最优水平。结果充分表明,通过合理的正则化与重建机制,表示编码器可被有效转化为强大而稳健的生成组件。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供