Command Palette
Search for a command to run...
Moebius:具有10B级性能的0.2B轻量级图像修复框架
Moebius:具有10B级性能的0.2B轻量级图像修复框架
Kangsheng Duan Ziyang Xu Wenyu Liu Xiaohu Ruan Xiaoxin Chen Xinggang Wang
摘要
尽管百亿级工业基础模型已不断拓展图像修复的边界,但其高昂的计算成本严重制约了实际部署。构建高度优化的任务专用专家模型提供了一条极具前景的解决路径;然而,极端的结构压缩不可避免地会引发严重的表示瓶颈。为克服这一难题,我们提出了Moebius,一种高效轻量级的图像修复框架。我们通过引入局部-λ混合交互(LλMI)模块,对扩散骨干网络进行了系统性重构。该模块由局部-λ与交互-λ组件构成,能够优雅地将空间上下文与全局语义先验归纳为固定维度的线性矩阵,在大幅削减参数量的同时有效保留了复杂的潜在交互关系。此外,为充分释放该高度紧凑架构的全部表征能力,我们将其与自适应多粒度蒸馏策略进行协同结合。该策略严格在潜在空间内运行,以避免高昂的像素空间解码开销,通过动态平衡多种基于梯度的损失函数来实现高保真对齐。在自然图像与肖像基准上的大量实验表明,这种最优协同效应使Moebius能够媲美甚至超越百亿级工业通用模型FLUX.1-Fill-Dev的生成质量。值得注意的是,Moebius仅使用不到2%的参数(0.22B对比11.9B)便实现了上述效果,同时在总推理时间上实现了>15imes的加速,为高保真图像修复树立了新的效率标杆。项目主页:https://hustvl.github.io/Moebius。
一句话总结
作者提出了 Moebius,这是一个参数量仅 0.2B 的轻量级图像修复框架。该框架通过局部-λ 混合交互模块将空间与语义先验压缩为固定大小的线性矩阵,并结合自适应多粒度蒸馏策略,有效克服了表示瓶颈。这使得 Moebius 在自然图像与人像基准测试中能够媲美参数量达 10B 的 FLUX.1-Fill-Dev 模型,同时仅使用不到 2% 的参数,并实现超过 15 倍的推理加速。
核心贡献
- 本文提出 Moebius,一种轻量级图像修复框架,该框架采用局部-λ 混合交互(LλMI)模块重构扩散模型主干。该组件将局部空间上下文与全局语义先验压缩为固定大小的线性矩阵,在将参数量降低至 0.22B 的同时,实现了高效自注意力与交叉注意力计算。
- 针对极端结构压缩固有的表示瓶颈,该框架采用严格在潜在空间内运行的自适应多粒度蒸馏策略。通过动态平衡多种基于梯度的损失函数,该优化方法使紧凑模型与高容量教师模型对齐,且未引入额外的架构开销。
- 在自然图像与人像基准测试中的广泛评估表明,该模型的生成质量匹配甚至超越了参数量为 11.9B 的 FLUX.1-Fill-Dev 基础模型。该配置在保持高保真输出的同时,使总推理时间加速超过 15 倍,为图像修复任务树立了新的性能与延迟平衡标杆。
引言
高参数量的扩散模型彻底革新了图像修复领域,但其庞大的计算需求与显存占用阻碍了其在资源受限或延迟敏感设备上的实际部署。以往尝试使用标准轻量级算子压缩此类架构的做法会引发严重的表示瓶颈,导致质量断崖式下降,并削弱关键的交叉注意力能力。为突破这一限制,作者引入了一种新型局部-λ 混合交互模块,该模块能够高效地将空间与语义上下文编码为固定大小矩阵,并与自适应多粒度蒸馏策略协同工作。该方法使仅含 0.2B 参数的 Moebius 框架在生成保真度上足以媲美 10B 量级的工业级模型,同时推理速度提升超过 15 倍。
实验
实验在自然与人像修复基准上展开,采用标准化推理分析与数据集特定微调,并在多粒度蒸馏流程后进行评估。结果验证了该模型在极端紧凑性与高保真生成之间弥合规模差距的能力。定性评估与人类偏好研究一致表明,该方法能够匹配其庞大的教师模型,并显著优于大型工业通用模型。该方法生成的修复结果结构连贯,有效避免了模糊与语义不一致等常见伪影。在复杂真实世界物体移除任务上的进一步验证以及消融分析证实,整体架构整合与潜在空间蒸馏目标对于实现鲁棒的上下文理解以及最优的质量与效率平衡至关重要。
作者通过用户研究将 Moebius 与教师模型 Pixel Hacker 及大型工业模型进行了对比。结果表明,Moebius 获得的平均用户偏好得分与教师模型高度接近,并显著优于工业基线模型。Moebius 在人像场景中表现尤为突出,在所有方法中获得了最高偏好得分。Moebius 的平均用户偏好得分与教师模型高度吻合,并大幅领先 FLUX.1 与 SD3.5 等工业基线。在人像场景中,Moebius 取得了最高偏好得分,超越了教师模型及其他所有对比方法。在真实世界物体移除任务中,Moebius 的表现几乎与教师模型持平,且显著优于工业基线。
作者在校外分布的自然与人像任务上,将 Moebius 与学术及工业基线进行了对比。结果表明,Moebius 成功缩小了与大型工业模型的性能差距,在保真度与感知质量上均达到与专业学术方法及大规模通用模型相媲美的水平。该方法显著优于其他泛化能力较弱的工业基线,同时在跨领域应用中保持高稳定性。在校外分布的自然与人像任务中,Moebius 取得了与大型工业模型及专业学术方法相当的性能。所提方法显著优于泛化能力差且错误率高的 SD3.5 工业基线。在自然与人像领域,Moebius 均获得了优于 FLUX 工业模型的感知质量得分。
{
"summary": "The experiments evaluate the impact of architectural modifications and knowledge distillation on model efficiency and generation quality. Results demonstrate that knowledge distillation is critical for high performance, as models lacking it exhibit significantly higher error metrics despite similar resource usage. The configuration utilizing L$\lambda$-L$\lambda$-MixFFN with DWConv and knowledge distillation achieves the optimal balance, delivering superior generation quality alongside the lowest parameter count and computational cost.",
"highlights": [
"Knowledge distillation is essential for quality, as models without it suffer significant performance drops despite comparable efficiency.",
"The L$\lambda$-L$\lambda$-MixFFN architecture with DWConv achieves the best performance-efficiency trade-off, outperforming heavier GLA-based models.",
"Lightweight components like DWConv only yield high-quality results when combined with knowledge distillation."
]
}
消融实验评估了不同损失函数对蒸馏过程的贡献。仅使用粗粒度知识蒸馏会导致最差性能,但逐步引入细粒度蒸馏、任务损失与感知约束后,各项指标得到系统性提升。完整配置取得了最佳结果,验证了多粒度优化策略的有效性。仅依赖粗粒度知识蒸馏会在 FID 与 LPIPS 上产生最高错误率。融合细粒度蒸馏与任务损失后,生成质量得到显著改善。完整的优化目标集取得了最佳性能,证实了多粒度方法的必要性。
作者推出了 Moebius,这是一种紧凑型图像修复模型,在效率与性能上均优于学术专用模型与大型工业通用模型。尽管在所有对比方法中参数量最少且推理延迟最低,该模型仍在全量测试的自然场景基准上取得了最佳定量结果。它有效弥合了与更大规模系统的容量差距,在仅消耗极小部分计算资源的情况下,实现了与之匹敌的视觉保真度。Moebius 取得了最高的效率指标,在所有评估方法中拥有最少的参数量与最快的推理速度。该模型在全部 Places2 基准测试中稳居首位,在 FID 与 LPIPS 得分上均超越了重型工业模型与学术基线。Moebius 成功匹配了其大型教师模型的生成质量,同时保持了显著更小的模型体积与更快的处理速度。
实验通过用户偏好研究、跨领域基准测试与消融实验对 Moebius 进行评估,旨在验证其在生成质量、泛化能力及架构效率方面相较于专业学术方法与大型工业基线的表现。定性结果表明,该模型成功弥合了与显著更大规模系统的容量差距,在自然与人像场景中输出的视觉保真度与感知稳定性高度匹配甚至超越教师模型。此外,组件分析证实知识蒸馏与多粒度优化策略对实现高性能至关重要,最终确立了 Moebius 作为一个高效紧凑框架的地位,使其能够在极低的计算开销下取得卓越成果。