Command Palette

Search for a command to run...

1 个月前

Hyper-Bagel:一种用于多模态理解与生成的统一加速框架

Yanzuo Lu Xin Xia Manlin Zhang Huafeng Kuang Jianbin Zheng Yuxi Ren Xuefeng Xiao

Hyper-Bagel:一种用于多模态理解与生成的统一加速框架

摘要

统一的多模态模型近年来受到广泛关注,因其在联合理解与生成多样化内容方面展现出卓越能力。然而,随着上下文逐渐融合大量交错的多模态标记,扩散去噪与自回归解码的迭代过程带来了显著的计算开销。为解决这一问题,我们提出 Hyper-Bagel——一种统一的加速框架,旨在同时提升多模态理解与生成任务的效率。该方法采用分而治之的策略:在下一标记预测中引入推测性解码(speculative decoding),在扩散去噪过程中采用多阶段知识蒸馏(multi-stage distillation)。该框架实现了显著的性能提升,在多模态理解任务中实现了超过2倍的加速。在生成任务方面,我们构建的无损6-NFE(6次非线性函数评估)模型在文本到图像生成任务中实现了16.67倍的加速,在图像编辑任务中实现了22倍的加速,同时完整保留了原始模型的高质量输出。此外,我们进一步开发了一种高效的1-NFE模型,支持近乎实时的交互式编辑与生成。通过结合先进的对抗性知识蒸馏与人类反馈学习(human feedback learning),该模型在成本效益与响应速度方面达到极致,使复杂的多模态交互变得流畅且瞬时响应。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供