HyperAIHyperAI

Command Palette

Search for a command to run...

OmniShow: 统一用于 Human-Object Interaction 视频生成的 Multimodal Conditions

摘要

在这项工作中,我们研究了人机交互视频生成(Human-Object Interaction Video Generation, HOIVG),其目标是根据文本、参考图像、音频和姿态(pose)等条件,合成高质量的人机交互视频。该任务对于实现现实应用中内容创作的自动化具有重要的实用价值,例如电子商务演示、短视频制作以及互动娱乐。然而,现有方法无法同时兼顾所有这些必要的约束条件。为此,我们提出了 OmniShow,这是一个专为这一具有挑战性的实际任务量身定制的端到端框架,能够协调多种模态的条件并提供工业级性能。为了克服可控性与生成质量之间的权衡问题,我们引入了统一通道级条件注入(Unified Channel-wise Conditioning)以实现高效的图像与 pose 注入,并提出了门控局部上下文注意力机制(Gated Local-Context Attention)以确保精确的音画同步。为了有效解决数据匮乏问题,我们开发了一种“先解耦后联合”(Decoupled-Then-Joint)的训练策略,通过结合模型合并(model merging)的多阶段训练过程,高效地利用了异构的子任务数据集。此外,为了填补该领域评估标准的空白,我们建立了 HOIVG-Bench,这是一个专门针对 HOIVG 的全面 benchmark。广泛的实验表明,OmniShow 在各种多模态条件设置下均实现了整体最先进(state-of-the-art)的性能,为新兴的 HOIVG 任务树立了坚实的标准。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供