Command Palette
Search for a command to run...
Meiqi Wu Jiashu Zhu Xiaokun Feng Chubin Chen Chen Zhu Bingze Song Fangyuan Mao Jiahong Wu Xiangxiang Chu Kaiqi Huang

摘要
视频生成模型取得了显著进展,尤其在真实场景中表现优异;然而,在想象性场景中的性能则明显下降。这类提示通常涉及罕见共现的概念,且概念之间具有远距离语义关联,超出了模型训练数据的分布范围。现有方法通常采用测试时缩放(test-time scaling)来提升视频质量,但其固定的搜索空间和静态的奖励设计限制了在想象性场景中的适应能力。为填补这一空白,我们提出 ImagerySearch——一种提示引导的自适应测试时搜索策略,能够根据提示中的语义关系动态调整推理阶段的搜索空间与奖励函数,从而在具有挑战性的想象性场景中生成更加连贯、视觉上更可信的视频。为评估该方向的进展,我们引入 LDT-Bench,这是首个专注于远距离语义提示的专用基准测试,包含2,839个多样化的概念对,并配备自动化评估协议,用于衡量模型的创造性生成能力。大量实验表明,ImagerySearch 在 LDT-Bench 上始终优于多个强大的视频生成基线模型以及现有的测试时缩放方法,并在 VBench 上也取得了具有竞争力的提升,充分验证了其在多种提示类型下的有效性。我们将公开发布 LDT-Bench 与相关代码,以推动想象性视频生成领域的后续研究。