8 天前

OmniTokenizer:一种用于视觉生成的联合图像-视频Tokenizer

Junke Wang, Yi Jiang, Zehuan Yuan, Binyue Peng, Zuxuan Wu, Yu-Gang Jiang
OmniTokenizer:一种用于视觉生成的联合图像-视频Tokenizer
摘要

作为将复杂视觉数据映射至紧凑潜在空间的“翻译器”,分词器(Tokenizer)处于视觉生成模型的核心位置。鉴于现有分词器通常针对图像或视频输入进行专门设计,本文提出 OmniTokenizer——一种基于 Transformer 的统一分词器,用于图像与视频的联合分词。OmniTokenizer 采用时空解耦的架构,通过窗口注意力(window attention)实现空间建模,利用因果注意力(causal attention)捕捉时间动态。为充分挖掘图像与视频数据之间的互补特性,我们进一步设计了一种渐进式训练策略:首先在固定分辨率下仅使用图像数据训练 OmniTokenizer,以建立其空间编码能力;随后在多分辨率条件下联合图像与视频数据进行训练,以学习时间演化规律。OmniTokenizer 首次在统一框架内实现了对图像与视频输入的统一处理,并验证了二者协同潜力的可行性。大量实验表明,OmniTokenizer 在多个图像与视频数据集上均达到当前最优(SOTA)的重建性能,例如在 ImageNet 上实现 1.11 的重建 FID,在 UCF-101 上实现 42 的重建 FVD,分别较此前 SOTA 方法提升 13% 和 26%。此外,实验还证明,当与 OmniTokenizer 集成时,基于语言模型的方法与扩散模型均能实现先进的视觉合成性能,充分彰显了本方法的优越性与广泛适用性。代码已开源,地址为:https://github.com/FoundationVision/OmniTokenizer。

OmniTokenizer:一种用于视觉生成的联合图像-视频Tokenizer | 最新论文 | HyperAI超神经