HyperAI

이 보고서는 고해상도 이미지 및 10초 길이의 비디오 합성에 최적화된 최신 기반 모델인 Kandinsky 5.0을 소개한다. 이 프레임워크는 세 가지 핵심 모델 라인업으로 구성되어 있다. 첫째, 60억 파라미터를 가진 이미지 생성 모델로 구성된 Kandinsky 5.0 Image Lite이며, 둘째, 20억 파라미터의 빠르고 경량화된 텍스트-to-비디오 및 이미지-to-비디오 모델인 Kandinsky 5.0 Video Lite이며, 셋째, 190억 파라미터를 갖춘 Kandinsky 5.0 Video Pro는 뛰어난 비디오 생성 품질을 달성한다. 본 보고서에서는 다단계 학습 파이프라인에 적용된 데이터 수집, 처리, 필터링 및 클러스터링을 포함한 데이터 커리레이션 생애주기 전반에 걸친 포괄적인 검토를 제공한다. 이 파이프라인은 광범위한 사전 학습을 포함하며, 자기지도 학습 기반 미세조정(SFT) 및 강화학습(Reinforcement Learning, RL) 기반 후처리와 같은 품질 향상 기법을 통합하고 있다. 또한 Kandinsky 5.0이 다양한 작업에서 뛰어난 성능과 높은 생성 속도를 달성할 수 있도록 하는 새로운 아키텍처, 학습 및 추론 최적화 기법을 제시한다. 이러한 성능은 인간 평가를 통해 입증되었다. 대규모이며 공개된 생성형 프레임워크로서 Kandinsky 5.0은 사전 학습 단계와 이후 단계의 전반적인 잠재력을 최대한 활용하여 다양한 생성 응용 분야에 적합하게 조정할 수 있다. 본 보고서와 함께 공개된 오픈소스 코드 및 학습 체크포인트를 통해, 연구 공동체가 고품질 생성 모델의 개발과 접근성을 크게 향상시킬 수 있기를 기대한다.

Kandinsky 5.0: 이미지 및 비디오 생성을 위한 기초 모델 가족

Vladimir Arkhipkin Vladimir Korviakov Nikolai Gerasimenko Denis Parkhomenko Viacheslav Vasilev Alexey Letunovskiy Maria Kovaleva Nikolai Vaulin Ivan Kirillov Lev Novitskiy

초록

AI로 AI 구축

Hyper Newsletters

Command Palette

Kandinsky 5.0: 이미지 및 비디오 생성을 위한 기초 모델 가족

Vladimir Arkhipkin Vladimir Korviakov Nikolai Gerasimenko Denis Parkhomenko Viacheslav Vasilev Alexey Letunovskiy Maria Kovaleva Nikolai Vaulin Ivan Kirillov Lev Novitskiy15 more

초록

AI로 AI 구축

Hyper Newsletters

Vladimir Arkhipkin Vladimir Korviakov Nikolai Gerasimenko Denis Parkhomenko Viacheslav Vasilev Alexey Letunovskiy Maria Kovaleva Nikolai Vaulin Ivan Kirillov Lev Novitskiy