Command Palette
Search for a command to run...
Hyunmin Cho Donghoon Ahn Susung Hong Jee Eun Kim Seungryong Kim Kyong Hwan Jin

摘要
近期的扩散模型在图像生成任务中达到了最先进水平,但常常面临语义不一致或幻觉问题。尽管多种推理阶段引导方法能够提升生成效果,但这些方法通常通过依赖外部信号或修改模型结构来间接实现,从而引入额外的计算开销。本文提出了一种更高效且直接的引导方法——切向放大引导(Tangential Amplifying Guidance, TAG),该方法仅基于轨迹信号进行操作,无需修改底层扩散模型。TAG利用一个中间样本作为投影基准,放大估计得分相对于该基准的切向分量,以修正采样轨迹。我们通过一阶泰勒展开对这一引导过程进行形式化建模,结果表明,放大切向分量能够引导状态向高概率区域移动,从而有效减少语义不一致,提升生成样本质量。TAG是一种即插即用、与架构无关的模块,仅需极少的额外计算开销即可显著提升扩散采样的保真度,为扩散模型的引导机制提供了全新的视角。