3 个月前

统一多模态

计算机视觉

Zhoujie Fu Xianfang Zeng Jinghong Lan Xinyao Liao Cheng Chen Junyi Chen Jiacheng Wei Wei Cheng Shiyu Liu Yunuo Chen

摘要

预训练视频模型能够学习到生成高质量、时间上连贯内容的强大先验知识。尽管这些模型在时间一致性方面表现优异，但其动态表现往往受限于训练数据的连续性特征。我们提出，若能将图像数据中丰富且不受限的内容多样性注入这一具有时间连贯性的框架中，便有望生成兼具自然过渡效果与更广阔动态范围的图像序列。为此，我们提出了iMontage——一种统一的框架，旨在将强大的视频生成模型重构为全能型图像生成器。该框架可处理并生成长度可变的图像集合，统一涵盖多种图像生成与编辑任务。为实现这一目标，我们设计了一种优雅且侵入性极小的适配策略，辅以定制化的数据筛选流程与训练范式。该方法使模型在不破坏其珍贵原始运动先验的前提下，获得了广泛的图像操作能力。iMontage在多个主流的“多输入-多输出”任务中表现卓越，不仅保持了图像间强大的上下文一致性，还能生成超越传统范式的极具动态表现力的场景。项目主页请访问：https://kr1sjfu.github.io/iMontage-web/。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

统一多模态

计算机视觉

Zhoujie Fu Xianfang Zeng Jinghong Lan Xinyao Liao Cheng Chen Junyi Chen Jiacheng Wei Wei Cheng Shiyu Liu Yunuo Chen

摘要

预训练视频模型能够学习到生成高质量、时间上连贯内容的强大先验知识。尽管这些模型在时间一致性方面表现优异，但其动态表现往往受限于训练数据的连续性特征。我们提出，若能将图像数据中丰富且不受限的内容多样性注入这一具有时间连贯性的框架中，便有望生成兼具自然过渡效果与更广阔动态范围的图像序列。为此，我们提出了iMontage——一种统一的框架，旨在将强大的视频生成模型重构为全能型图像生成器。该框架可处理并生成长度可变的图像集合，统一涵盖多种图像生成与编辑任务。为实现这一目标，我们设计了一种优雅且侵入性极小的适配策略，辅以定制化的数据筛选流程与训练范式。该方法使模型在不破坏其珍贵原始运动先验的前提下，获得了广泛的图像操作能力。iMontage在多个主流的“多输入-多输出”任务中表现卓越，不仅保持了图像间强大的上下文一致性，还能生成超越传统范式的极具动态表现力的场景。项目主页请访问：https://kr1sjfu.github.io/iMontage-web/。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供