HyperAI超神经

摘要

我们提出 Open-MAGVIT2，这是一个自回归图像生成模型系列，参数量范围从 3 亿（300M）到 15 亿（1.5B）。Open-MAGVIT2 项目实现了谷歌 MAGVIT-v2 分词器的开源复现，该分词器采用超大规模码本（即 2¹⁸ 个码字），在 ImageNet 256×256 图像数据集上实现了当前最优的重建性能（rFID 达 1.17）。此外，我们探索了该模型在标准自回归架构中的应用，并验证了其良好的可扩展性。为帮助自回归模型高效处理超大规模词汇表，我们采用非对称分词策略，将原始词汇表分解为两个不同规模的子词汇表，并进一步引入“下一子标记预测”机制，以增强子标记之间的交互，从而提升生成质量。我们已公开所有模型权重与源代码，旨在推动自回归视觉生成领域的创新与创造性发展。

摘要

Zhuoyan Luo Fengyuan Shi Yixiao Ge Yujiu Yang Limin Wang Ying Shan

摘要

用 AI 构建 AI

HyperAI Newsletters

Zhuoyan Luo Fengyuan Shi Yixiao Ge Yujiu Yang Limin Wang Ying Shan

摘要

用 AI 构建 AI

HyperAI Newsletters

Zhuoyan Luo Fengyuan Shi Yixiao Ge Yujiu Yang Limin Wang Ying Shan

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Open-MAGVIT2：一项迈向民主化自回归视觉生成的开源项目

Zhuoyan Luo Fengyuan Shi Yixiao Ge Yujiu Yang Limin Wang Ying Shan

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Open-MAGVIT2：一项迈向民主化自回归视觉生成的开源项目

Zhuoyan Luo Fengyuan Shi Yixiao Ge Yujiu Yang Limin Wang Ying Shan

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Open-MAGVIT2：一项迈向民主化自回归视觉生成的开源项目

Zhuoyan Luo Fengyuan Shi Yixiao Ge Yujiu Yang Limin Wang Ying Shan

摘要

用 AI 构建 AI

HyperAI Newsletters