16 天前

MaskBit:通过位令牌实现的无嵌入图像生成

Mark Weber, Lijun Yu, Qihang Yu, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
MaskBit:通过位令牌实现的无嵌入图像生成
摘要

用于类别条件图像生成的掩码Transformer模型已成为扩散模型的一种有力替代方案。这类框架通常由两个阶段组成:首先通过VQGAN模型实现潜在空间与图像空间之间的转换,随后利用Transformer模型在潜在空间内进行图像生成,为图像合成提供了极具前景的技术路径。在本研究中,我们提出两项主要贡献:其一,对VQGAN进行了系统性且基于实证的深入分析,进而构建了一个现代化的VQGAN模型;其二,提出一种无需嵌入(embedding-free)的生成网络,该网络直接在比特令牌(bit tokens)上运行——即具有丰富语义信息的二值化令牌表示。第一项贡献提供了一个透明、可复现且性能优异的VQGAN模型,在保持与当前最先进方法相当性能的同时,揭示了此前未被发现的关键细节,显著提升了模型的可访问性。第二项贡献表明,基于比特令牌的无嵌入图像生成方法在ImageNet 256×256基准测试上取得了1.52的全新最优FID得分,且生成器模型仅包含305M参数,展现出极高的效率与紧凑性。

MaskBit:通过位令牌实现的无嵌入图像生成 | 最新论文 | HyperAI超神经