Command Palette
Search for a command to run...
Ming Chen Liyuan Cui Wenyuan Zhang Haoxian Zhang Yan Zhou Xiaohan Li Xiaoqiang Liu Pengfei Wan

摘要
近年来,交互式数字人视频生成技术受到广泛关注,并取得了显著进展。然而,现有方法在构建能够实时响应多种输入信号的实用系统方面仍面临挑战,普遍存在延迟高、计算开销大以及控制能力有限等问题。本文提出一种自回归视频生成框架,支持交互式多模态控制,并以流式方式实现低延迟外推。该框架仅对标准大型语言模型(LLM)进行极小改动,即可接收包括音频、姿态和文本在内的多模态条件编码,并输出在空间与语义上保持一致的表征,用于引导扩散模型头部的去噪过程。为支持该框架,我们从多个数据源构建了一个规模达约20,000小时的大型对话数据集,为模型训练提供了丰富的对话场景。此外,我们设计了一种深度压缩自编码器,压缩比最高可达64倍,有效缓解了自回归模型在长时序推理中的计算负担。大量实验表明,该方法在双工对话、多语言人物合成以及交互式世界建模等任务中,均展现出低延迟、高效率及细粒度多模态可控性的显著优势。