摘要

在这项工作中，我们研究了人机交互视频生成（Human-Object Interaction Video Generation, HOIVG），其目标是根据文本、参考图像、音频和姿态（pose）等条件，合成高质量的人机交互视频。该任务对于实现现实应用中内容创作的自动化具有重要的实用价值，例如电子商务演示、短视频制作以及互动娱乐。然而，现有方法无法同时兼顾所有这些必要的约束条件。为此，我们提出了 OmniShow，这是一个专为这一具有挑战性的实际任务量身定制的端到端框架，能够协调多种模态的条件并提供工业级性能。为了克服可控性与生成质量之间的权衡问题，我们引入了统一通道级条件注入（Unified Channel-wise Conditioning）以实现高效的图像与 pose 注入，并提出了门控局部上下文注意力机制（Gated Local-Context Attention）以确保精确的音画同步。为了有效解决数据匮乏问题，我们开发了一种“先解耦后联合”（Decoupled-Then-Joint）的训练策略，通过结合模型合并（model merging）的多阶段训练过程，高效地利用了异构的子任务数据集。此外，为了填补该领域评估标准的空白，我们建立了 HOIVG-Bench，这是一个专门针对 HOIVG 的全面 benchmark。广泛的实验表明，OmniShow 在各种多模态条件设置下均实现了整体最先进（state-of-the-art）的性能，为新兴的 HOIVG 任务树立了坚实的标准。

源 PDF 查看代码