HyperAIHyperAI

Command Palette

Search for a command to run...

Console
5 天前

TwinFlow:基于自对抗流实现大模型的一步生成

Zhenglin Cheng Peng Sun Jianguo Li Tao Lin

TwinFlow:基于自对抗流实现大模型的一步生成

摘要

近年来,大规模多模态生成模型在多模态生成任务(包括图像与视频生成)中展现出令人瞩目的能力。这类模型通常基于扩散(diffusion)或流匹配(flow matching)等多步生成框架构建,其固有的生成过程限制了推理效率(通常需要40至100次函数求值,即NFE)。尽管已有多种少步生成方法致力于提升推理速度,但现有方案仍存在明显局限:主流的基于知识蒸馏的方法(如渐进式蒸馏与一致性蒸馏)往往依赖迭代蒸馏流程,或在极少数步数(<4-NFE)下出现显著性能下降;而将对抗训练引入蒸馏过程(如DMD/DMD2与SANA-Sprint)虽可提升性能,却带来了训练不稳定、模型复杂度增加以及辅助模型带来的高GPU显存开销等问题。为此,我们提出TwinFlow——一种简洁而高效的1步生成模型训练框架。该方法无需依赖固定的预训练教师模型,且在训练过程中避免使用标准对抗网络,因而特别适用于构建大规模、高效率的生成模型。在文本到图像生成任务中,我们的方法在仅1次函数求值(1-NFE)下即可达到GenEval评分0.83,显著优于SANA-Sprint(基于GAN损失的框架)与RCGM(基于一致性机制的框架)等强基线模型。尤为值得一提的是,我们通过在Qwen-Image-20B模型上进行全参数训练,验证了TwinFlow的可扩展性,并成功将其转化为高效的少步生成器。仅需1-NFE,该方法在GenEval与DPG-Bench两个基准测试上的性能即可媲美原始100-NFE模型,同时将计算成本降低约100倍,仅伴随轻微的质量损失。项目主页详见:https://zhenglin-cheng.com/twinflow

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供