
摘要
流匹配(Flow Matching)是一种近期提出的生成模型训练框架,相较于基于扩散模型的方法,其在训练难度上更为简便,同时展现出令人瞩目的实证性能。尽管该方法具备诸多优势,但以往的方法仍面临计算成本高昂以及在像素空间中使用现成求解器时函数评估次数过多的问题。此外,尽管近年来基于潜在空间的生成方法取得了显著成功,但此类模型在流匹配框架中的应用仍鲜有探索。在本工作中,我们提出将流匹配应用于预训练自编码器的潜在空间中,从而显著提升高分辨率图像生成任务中的计算效率与可扩展性。该方法使得在计算资源受限的条件下仍能实现流匹配训练,同时保持生成质量与灵活性。此外,本研究在将多种条件引入流匹配以实现条件生成任务方面做出了开创性贡献,涵盖标签条件图像生成、图像修复(image inpainting)以及语义到图像生成等任务。通过在多个数据集(包括CelebA-HQ、FFHQ、LSUN Church & Bedroom以及ImageNet)上的大量实验验证,我们的方法在定量与定性指标上均展现出卓越性能。同时,我们还从理论上对重构潜在流分布与真实数据分布之间的Wasserstein-2距离进行了控制,证明该距离被潜在流匹配目标函数所上界约束。相关代码将公开于:https://github.com/VinAIResearch/LFM.git。