Command Palette

Search for a command to run...

6일 전

Kandinsky 5.0: 이미지 및 비디오 생성을 위한 기초 모델 가족

Kandinsky 5.0: 이미지 및 비디오 생성을 위한 기초 모델 가족

초록

이 보고서는 고해상도 이미지 및 10초 길이의 비디오 합성에 최적화된 최신 기반 모델인 Kandinsky 5.0을 소개한다. 이 프레임워크는 세 가지 핵심 모델 라인업으로 구성되어 있다. 첫째, 60억 파라미터를 가진 이미지 생성 모델로 구성된 Kandinsky 5.0 Image Lite이며, 둘째, 20억 파라미터의 빠르고 경량화된 텍스트-to-비디오 및 이미지-to-비디오 모델인 Kandinsky 5.0 Video Lite이며, 셋째, 190억 파라미터를 갖춘 Kandinsky 5.0 Video Pro는 뛰어난 비디오 생성 품질을 달성한다. 본 보고서에서는 다단계 학습 파이프라인에 적용된 데이터 수집, 처리, 필터링 및 클러스터링을 포함한 데이터 커리레이션 생애주기 전반에 걸친 포괄적인 검토를 제공한다. 이 파이프라인은 광범위한 사전 학습을 포함하며, 자기지도 학습 기반 미세조정(SFT) 및 강화학습(Reinforcement Learning, RL) 기반 후처리와 같은 품질 향상 기법을 통합하고 있다. 또한 Kandinsky 5.0이 다양한 작업에서 뛰어난 성능과 높은 생성 속도를 달성할 수 있도록 하는 새로운 아키텍처, 학습 및 추론 최적화 기법을 제시한다. 이러한 성능은 인간 평가를 통해 입증되었다. 대규모이며 공개된 생성형 프레임워크로서 Kandinsky 5.0은 사전 학습 단계와 이후 단계의 전반적인 잠재력을 최대한 활용하여 다양한 생성 응용 분야에 적합하게 조정할 수 있다. 본 보고서와 함께 공개된 오픈소스 코드 및 학습 체크포인트를 통해, 연구 공동체가 고품질 생성 모델의 개발과 접근성을 크게 향상시킬 수 있기를 기대한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
Kandinsky 5.0: 이미지 및 비디오 생성을 위한 기초 모델 가족 | 연구 논문 | HyperAI초신경