5 个月前

计算机视觉

Shen Sang Tiancheng Zhi Tianpei Gu Jing Liu Linjie Luo

摘要

我们提出Lynx，一种基于单张输入图像实现个性化视频生成的高保真模型。该模型基于开源的扩散Transformer（DiT）基础架构，引入两个轻量级适配器以确保身份特征的高保真度。其中，ID适配器采用Perceiver Resampler，将ArcFace提取的面部嵌入向量转换为紧凑的身份令牌，用于条件控制；而Ref适配器则整合来自冻结参考路径的密集VAE特征，通过跨注意力机制将细粒度细节注入所有Transformer层。这两个模块协同作用，实现了鲁棒的身份一致性保留，同时保持了良好的时间连贯性与视觉真实性。在涵盖40名被试者、20个无偏提示语的精选基准测试中（共生成800个测试案例），Lynx在人脸相似度、提示遵循能力以及视频质量方面均表现出色，显著推动了个性化视频生成技术的发展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 个月前

计算机视觉

Shen Sang Tiancheng Zhi Tianpei Gu Jing Liu Linjie Luo

摘要

我们提出Lynx，一种基于单张输入图像实现个性化视频生成的高保真模型。该模型基于开源的扩散Transformer（DiT）基础架构，引入两个轻量级适配器以确保身份特征的高保真度。其中，ID适配器采用Perceiver Resampler，将ArcFace提取的面部嵌入向量转换为紧凑的身份令牌，用于条件控制；而Ref适配器则整合来自冻结参考路径的密集VAE特征，通过跨注意力机制将细粒度细节注入所有Transformer层。这两个模块协同作用，实现了鲁棒的身份一致性保留，同时保持了良好的时间连贯性与视觉真实性。在涵盖40名被试者、20个无偏提示语的精选基准测试中（共生成800个测试案例），Lynx在人脸相似度、提示遵循能力以及视频质量方面均表现出色，显著推动了个性化视频生成技术的发展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供