3 个月前

Vladimir Arkhipkin Vladimir Korviakov Nikolai Gerasimenko Denis Parkhomenko Viacheslav Vasilev Alexey Letunovskiy Maria Kovaleva Nikolai Vaulin Ivan Kirillov Lev Novitskiy

摘要

本报告介绍了Kandinsky 5.0，这是一个面向高分辨率图像与10秒视频合成的前沿基础模型家族。该框架包含三大核心模型系列：Kandinsky 5.0 Image Lite——一组参数量为60亿的图像生成模型；Kandinsky 5.0 Video Lite——一个轻量级、高效的20亿参数文本到视频及图像到视频生成模型；以及Kandinsky 5.0 Video Pro——参数量达190亿的模型，能够实现卓越的视频生成质量。报告全面阐述了多阶段训练流程中的数据构建生命周期，涵盖数据采集、处理、过滤与聚类等关键环节，并详细说明了在大规模预训练过程中所采用的质量增强技术，包括自监督微调（Self-Supervised Fine-Tuning, SFT）与基于强化学习（Reinforcement Learning, RL）的后训练优化策略。此外，本文还提出了一系列创新的架构设计、训练方法与推理优化技术，使Kandinsky 5.0在多种任务中均实现了高速生成能力与业界领先的表现水平，相关性能已通过人工评估得到验证。作为一项大规模、公开可用的生成式框架，Kandinsky 5.0充分发挥其预训练阶段及后续优化阶段的潜力，可灵活适配多样化的生成应用场景。我们期望本报告，连同开源代码与训练检查点的发布，能够显著推动高质量生成模型在科研社区中的发展与普及。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

Vladimir Arkhipkin Vladimir Korviakov Nikolai Gerasimenko Denis Parkhomenko Viacheslav Vasilev Alexey Letunovskiy Maria Kovaleva Nikolai Vaulin Ivan Kirillov Lev Novitskiy

摘要

本报告介绍了Kandinsky 5.0，这是一个面向高分辨率图像与10秒视频合成的前沿基础模型家族。该框架包含三大核心模型系列：Kandinsky 5.0 Image Lite——一组参数量为60亿的图像生成模型；Kandinsky 5.0 Video Lite——一个轻量级、高效的20亿参数文本到视频及图像到视频生成模型；以及Kandinsky 5.0 Video Pro——参数量达190亿的模型，能够实现卓越的视频生成质量。报告全面阐述了多阶段训练流程中的数据构建生命周期，涵盖数据采集、处理、过滤与聚类等关键环节，并详细说明了在大规模预训练过程中所采用的质量增强技术，包括自监督微调（Self-Supervised Fine-Tuning, SFT）与基于强化学习（Reinforcement Learning, RL）的后训练优化策略。此外，本文还提出了一系列创新的架构设计、训练方法与推理优化技术，使Kandinsky 5.0在多种任务中均实现了高速生成能力与业界领先的表现水平，相关性能已通过人工评估得到验证。作为一项大规模、公开可用的生成式框架，Kandinsky 5.0充分发挥其预训练阶段及后续优化阶段的潜力，可灵活适配多样化的生成应用场景。我们期望本报告，连同开源代码与训练检查点的发布，能够显著推动高质量生成模型在科研社区中的发展与普及。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供