2 个月前
LARP:使用学习到的自回归生成先验对视频进行分词
Wang, Hanyu ; Suri, Saksham ; Ren, Yixuan ; Chen, Hao ; Shrivastava, Abhinav

摘要
我们介绍了LARP,这是一种新颖的视频分词器,旨在克服当前用于自回归(AR)生成模型的视频分词方法中的局限性。与传统的基于补丁的分词器直接将局部视觉补丁编码为离散分词不同,LARP引入了一种整体分词方案,通过一组学习到的整体查询来收集视觉内容的信息。这种设计使LARP能够捕捉更多的全局和语义表示,而不仅仅局限于局部补丁级别的信息。此外,它还提供了灵活性,支持任意数量的离散分词,从而可以根据特定任务的需求进行自适应和高效的分词。为了使离散分词空间与下游AR生成任务对齐,LARP集成了一个轻量级的AR变压器作为训练时的先验模型,该模型在其离散潜在空间上预测下一个分词。通过在训练过程中融入先验模型,LARP不仅优化了用于视频重建的潜在空间,还以一种更有利于自回归生成的方式对其进行了结构化。此外,这一过程定义了离散分词的顺序,在训练期间逐步将其推向最优配置,确保推理时更平滑和准确的AR生成。全面的实验表明,LARP表现出色,在UCF101类别条件视频生成基准测试中达到了最先进的FVD指标。LARP增强了AR模型与视频的兼容性,并为构建统一的高保真多模态大语言模型(MLLMs)开辟了潜力。