8 天前

语言模型超越扩散模型——分词器是视觉生成的关键

Lijun Yu, José Lezama, Nitesh B. Gundavarapu, Luca Versari, Kihyuk Sohn, David Minnen, Yong Cheng, Vighnesh Birodkar, Agrim Gupta, Xiuye Gu, Alexander G. Hauptmann, Boqing Gong, Ming-Hsuan Yang, Irfan Essa, David A. Ross, Lu Jiang
语言模型超越扩散模型——分词器是视觉生成的关键
摘要

尽管大型语言模型(LLMs)在自然语言生成任务中占据主导地位,但在图像与视频生成方面,其表现仍不及扩散模型(diffusion models)。为了有效利用LLMs进行视觉内容生成,一个关键组件是视觉分词器(visual tokenizer),其功能是将像素空间的输入映射为适合LLM学习的离散令牌(tokens)。本文提出了一种名为MAGVIT-v2的视频分词器,该分词器采用统一的令牌词汇表,能够为图像和视频生成简洁且富有表现力的离散令牌。借助这一新型分词器,我们验证了LLMs在ImageNet和Kinetics等标准图像与视频生成基准测试中,性能超越了扩散模型。此外,我们进一步证明,该分词器在两项额外任务上也优于此前表现最佳的视频分词器:(1)在人类评估中,其视频压缩效果可与下一代视频编码标准(VCC)相媲美;(2)在动作识别任务中,能够学习到具有高度有效性的视觉表征。

语言模型超越扩散模型——分词器是视觉生成的关键 | 最新论文 | HyperAI超神经