5 个月前

摘要

统一的多模态模型近年来受到广泛关注，因其在联合理解与生成多样化内容方面展现出卓越能力。然而，随着上下文逐渐融合大量交错的多模态标记，扩散去噪与自回归解码的迭代过程带来了显著的计算开销。为解决这一问题，我们提出 Hyper-Bagel——一种统一的加速框架，旨在同时提升多模态理解与生成任务的效率。该方法采用分而治之的策略：在下一标记预测中引入推测性解码（speculative decoding），在扩散去噪过程中采用多阶段知识蒸馏（multi-stage distillation）。该框架实现了显著的性能提升，在多模态理解任务中实现了超过2倍的加速。在生成任务方面，我们构建的无损6-NFE（6次非线性函数评估）模型在文本到图像生成任务中实现了16.67倍的加速，在图像编辑任务中实现了22倍的加速，同时完整保留了原始模型的高质量输出。此外，我们进一步开发了一种高效的1-NFE模型，支持近乎实时的交互式编辑与生成。通过结合先进的对抗性知识蒸馏与人类反馈学习（human feedback learning），该模型在成本效益与响应速度方面达到极致，使复杂的多模态交互变得流畅且瞬时响应。

源 PDF