Command Palette
Search for a command to run...
Jinheng Xie Zhenheng Yang Mike Zheng Shou

摘要
本文介绍了改进的原生统一多模态模型,即Show-o2,该模型利用了自回归建模和流匹配技术。基于三维因果变分自编码器空间,通过空间(-时间)融合的双路径构建统一的视觉表示,实现了图像和视频模态之间的可扩展性,同时确保了有效的多模态理解和生成。在语言模型的基础上,自回归建模和流匹配分别应用于语言头和流头,以促进文本标记预测和图像/视频生成。设计了一种两阶段训练方法,能够有效地学习并扩展到更大的模型。最终的Show-o2模型展示了其在处理多种多模态理解和生成任务方面的灵活性,涵盖了文本、图像和视频等多种模态。代码和模型已发布在 此链接。
代码仓库
showlab/show-o
官方
jax
GitHub 中提及