Command Palette
Search for a command to run...
Yanzuo Lu Xin Xia Manlin Zhang Huafeng Kuang Jianbin Zheng Yuxi Ren Xuefeng Xiao

摘要
统一的多模态模型近年来受到广泛关注,因其在联合理解与生成多样化内容方面展现出卓越能力。然而,随着上下文逐渐融合大量交错的多模态标记,扩散去噪与自回归解码的迭代过程带来了显著的计算开销。为解决这一问题,我们提出 Hyper-Bagel——一种统一的加速框架,旨在同时提升多模态理解与生成任务的效率。该方法采用分而治之的策略:在下一标记预测中引入推测性解码(speculative decoding),在扩散去噪过程中采用多阶段知识蒸馏(multi-stage distillation)。该框架实现了显著的性能提升,在多模态理解任务中实现了超过2倍的加速。在生成任务方面,我们构建的无损6-NFE(6次非线性函数评估)模型在文本到图像生成任务中实现了16.67倍的加速,在图像编辑任务中实现了22倍的加速,同时完整保留了原始模型的高质量输出。此外,我们进一步开发了一种高效的1-NFE模型,支持近乎实时的交互式编辑与生成。通过结合先进的对抗性知识蒸馏与人类反馈学习(human feedback learning),该模型在成本效益与响应速度方面达到极致,使复杂的多模态交互变得流畅且瞬时响应。