4 个月前

计算机视觉

Hyunmin Cho Donghoon Ahn Susung Hong Jee Eun Kim Seungryong Kim Kyong Hwan Jin

摘要

近期的扩散模型在图像生成任务中达到了最先进水平，但常常面临语义不一致或幻觉问题。尽管多种推理阶段引导方法能够提升生成效果，但这些方法通常通过依赖外部信号或修改模型结构来间接实现，从而引入额外的计算开销。本文提出了一种更高效且直接的引导方法——切向放大引导（Tangential Amplifying Guidance, TAG），该方法仅基于轨迹信号进行操作，无需修改底层扩散模型。TAG利用一个中间样本作为投影基准，放大估计得分相对于该基准的切向分量，以修正采样轨迹。我们通过一阶泰勒展开对这一引导过程进行形式化建模，结果表明，放大切向分量能够引导状态向高概率区域移动，从而有效减少语义不一致，提升生成样本质量。TAG是一种即插即用、与架构无关的模块，仅需极少的额外计算开销即可显著提升扩散采样的保真度，为扩散模型的引导机制提供了全新的视角。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

4 个月前

计算机视觉

Hyunmin Cho Donghoon Ahn Susung Hong Jee Eun Kim Seungryong Kim Kyong Hwan Jin

摘要

近期的扩散模型在图像生成任务中达到了最先进水平，但常常面临语义不一致或幻觉问题。尽管多种推理阶段引导方法能够提升生成效果，但这些方法通常通过依赖外部信号或修改模型结构来间接实现，从而引入额外的计算开销。本文提出了一种更高效且直接的引导方法——切向放大引导（Tangential Amplifying Guidance, TAG），该方法仅基于轨迹信号进行操作，无需修改底层扩散模型。TAG利用一个中间样本作为投影基准，放大估计得分相对于该基准的切向分量，以修正采样轨迹。我们通过一阶泰勒展开对这一引导过程进行形式化建模，结果表明，放大切向分量能够引导状态向高概率区域移动，从而有效减少语义不一致，提升生成样本质量。TAG是一种即插即用、与架构无关的模块，仅需极少的额外计算开销即可显著提升扩散采样的保真度，为扩散模型的引导机制提供了全新的视角。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供