Command Palette
Search for a command to run...
Shen Sang Tiancheng Zhi Tianpei Gu Jing Liu Linjie Luo

摘要
我们提出Lynx,一种基于单张输入图像实现个性化视频生成的高保真模型。该模型基于开源的扩散Transformer(DiT)基础架构,引入两个轻量级适配器以确保身份特征的高保真度。其中,ID适配器采用Perceiver Resampler,将ArcFace提取的面部嵌入向量转换为紧凑的身份令牌,用于条件控制;而Ref适配器则整合来自冻结参考路径的密集VAE特征,通过跨注意力机制将细粒度细节注入所有Transformer层。这两个模块协同作用,实现了鲁棒的身份一致性保留,同时保持了良好的时间连贯性与视觉真实性。在涵盖40名被试者、20个无偏提示语的精选基准测试中(共生成800个测试案例),Lynx在人脸相似度、提示遵循能力以及视频质量方面均表现出色,显著推动了个性化视频生成技术的发展。