Command Palette
Search for a command to run...

摘要
预训练视频模型能够学习到生成高质量、时间上连贯内容的强大先验知识。尽管这些模型在时间一致性方面表现优异,但其动态表现往往受限于训练数据的连续性特征。我们提出,若能将图像数据中丰富且不受限的内容多样性注入这一具有时间连贯性的框架中,便有望生成兼具自然过渡效果与更广阔动态范围的图像序列。为此,我们提出了iMontage——一种统一的框架,旨在将强大的视频生成模型重构为全能型图像生成器。该框架可处理并生成长度可变的图像集合,统一涵盖多种图像生成与编辑任务。为实现这一目标,我们设计了一种优雅且侵入性极小的适配策略,辅以定制化的数据筛选流程与训练范式。该方法使模型在不破坏其珍贵原始运动先验的前提下,获得了广泛的图像操作能力。iMontage在多个主流的“多输入-多输出”任务中表现卓越,不仅保持了图像间强大的上下文一致性,还能生成超越传统范式的极具动态表现力的场景。项目主页请访问:https://kr1sjfu.github.io/iMontage-web/。