HyperAIHyperAI

Command Palette

Search for a command to run...

vor 6 Tagen

Kandinsky 5.0: Eine Familie von Foundation Models für die Bild- und Videogenerierung

Kandinsky 5.0: Eine Familie von Foundation Models für die Bild- und Videogenerierung

Abstract

Dieser Bericht stellt Kandinsky 5.0 vor, eine Familie von State-of-the-Art-Grundmodellen für die Synthese von hochauflösenden Bildern und 10-Sekunden-Videos. Das Framework besteht aus drei zentralen Modellreihen: Kandinsky 5.0 Image Lite – eine Reihe von Bildgenerationsmodellen mit jeweils 6 Milliarden Parametern, Kandinsky 5.0 Video Lite – schnelle und leichtgewichtige Text-zu-Video- und Bild-zu-Video-Modelle mit 2 Milliarden Parametern, sowie Kandinsky 5.0 Video Pro – Modelle mit 19 Milliarden Parametern, die eine herausragende Videoqualität erreichen. Wir präsentieren eine umfassende Analyse des Datenpfads zur Datenaufbereitung – einschließlich Sammlung, Verarbeitung, Filterung und Clustering – für den mehrstufigen Trainingspipeline, die umfangreiche Vortrainingsphasen umfasst und Qualitätsverbesserungstechniken wie selbstüberwachtes Feintuning (SFT) sowie nachtrainierungsbasierende Verstärkungslernen (RL) integriert. Zudem stellen wir neuartige architektonische, trainings- und inferenzbasierte Optimierungen vor, die es Kandinsky 5.0 ermöglichen, hohe Generierungsgeschwindigkeiten und state-of-the-art-Leistung bei verschiedenen Aufgaben zu erzielen, wie durch menschliche Bewertungen belegt wird. Als großskaliges, öffentlich verfügbares generatives Framework nutzt Kandinsky 5.0 das volle Potenzial seines Vortrainings und der nachfolgenden Trainingsphasen, um sich für eine breite Palette generativer Anwendungen anzupassen. Wir hoffen, dass dieser Bericht gemeinsam mit der Veröffentlichung unseres Open-Source-Codes und der Trainings-Checkpoint-Dateien die Entwicklung und Zugänglichkeit hochwertiger generativer Modelle in der Forschungsgemeinschaft erheblich voranbringen wird.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Kandinsky 5.0: Eine Familie von Foundation Models für die Bild- und Videogenerierung | Forschungsarbeiten | HyperAI