Command Palette

Search for a command to run...

4 个月前

Show-O2:改进的原生统一多模态模型

Jinheng Xie Zhenheng Yang Mike Zheng Shou

Show-O2:改进的原生统一多模态模型

摘要

本文介绍了改进的原生统一多模态模型,即Show-o2,该模型利用了自回归建模和流匹配技术。基于三维因果变分自编码器空间,通过空间(-时间)融合的双路径构建统一的视觉表示,实现了图像和视频模态之间的可扩展性,同时确保了有效的多模态理解和生成。在语言模型的基础上,自回归建模和流匹配分别应用于语言头和流头,以促进文本标记预测和图像/视频生成。设计了一种两阶段训练方法,能够有效地学习并扩展到更大的模型。最终的Show-o2模型展示了其在处理多种多模态理解和生成任务方面的灵活性,涵盖了文本、图像和视频等多种模态。代码和模型已发布在 此链接。

代码仓库

showlab/show-o
官方
jax
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供