HyperAI超神经

摘要

本文介绍了改进的原生统一多模态模型，即Show-o2，该模型利用了自回归建模和流匹配技术。基于三维因果变分自编码器空间，通过空间（-时间）融合的双路径构建统一的视觉表示，实现了图像和视频模态之间的可扩展性，同时确保了有效的多模态理解和生成。在语言模型的基础上，自回归建模和流匹配分别应用于语言头和流头，以促进文本标记预测和图像/视频生成。设计了一种两阶段训练方法，能够有效地学习并扩展到更大的模型。最终的Show-o2模型展示了其在处理多种多模态理解和生成任务方面的灵活性，涵盖了文本、图像和视频等多种模态。代码和模型已发布在此链接。

摘要

Jinheng Xie Zhenheng Yang Mike Zheng Shou

摘要

用 AI 构建 AI

HyperAI Newsletters

Jinheng Xie Zhenheng Yang Mike Zheng Shou

摘要

用 AI 构建 AI

HyperAI Newsletters

Jinheng Xie Zhenheng Yang Mike Zheng Shou

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Show-O2：改进的原生统一多模态模型

Jinheng Xie Zhenheng Yang Mike Zheng Shou

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Show-O2：改进的原生统一多模态模型

Jinheng Xie Zhenheng Yang Mike Zheng Shou

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Show-O2：改进的原生统一多模态模型

Jinheng Xie Zhenheng Yang Mike Zheng Shou

摘要

用 AI 构建 AI

HyperAI Newsletters