16 天前

Open-MAGVIT2:一项迈向民主化自回归视觉生成的开源项目

Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan
Open-MAGVIT2:一项迈向民主化自回归视觉生成的开源项目
摘要

我们提出 Open-MAGVIT2,这是一个自回归图像生成模型系列,参数量范围从 3 亿(300M)到 15 亿(1.5B)。Open-MAGVIT2 项目实现了谷歌 MAGVIT-v2 分词器的开源复现,该分词器采用超大规模码本(即 2¹⁸ 个码字),在 ImageNet 256×256 图像数据集上实现了当前最优的重建性能(rFID 达 1.17)。此外,我们探索了该模型在标准自回归架构中的应用,并验证了其良好的可扩展性。为帮助自回归模型高效处理超大规模词汇表,我们采用非对称分词策略,将原始词汇表分解为两个不同规模的子词汇表,并进一步引入“下一子标记预测”机制,以增强子标记之间的交互,从而提升生成质量。我们已公开所有模型权重与源代码,旨在推动自回归视觉生成领域的创新与创造性发展。

Open-MAGVIT2:一项迈向民主化自回归视觉生成的开源项目 | 最新论文 | HyperAI超神经