HyperAIHyperAI

Command Palette

Search for a command to run...

Kandinsky 5.0 : Une famille de modèles fondamentaux pour la génération d’images et de vidéos

Résumé

Ce rapport présente Kandinsky 5.0, une famille de modèles fondamentaux de pointe pour la synthèse d’images haute résolution et de vidéos de 10 secondes. Le cadre repose sur trois modèles phares : Kandinsky 5.0 Image Lite – une série de modèles de génération d’images de 6 milliards de paramètres ; Kandinsky 5.0 Video Lite – des modèles rapides et légers de 2 milliards de paramètres pour la génération vidéo à partir de texte ou d’image ; et Kandinsky 5.0 Video Pro – des modèles de 19 milliards de paramètres offrant une qualité de génération vidéo exceptionnelle. Nous fournissons un examen approfondi du cycle de curatation des données – incluant la collecte, le traitement, le filtrage et le regroupement – pour la chaîne de formation en plusieurs étapes, qui repose sur un pré-entraînement étendu et intègre des techniques d’amélioration de la qualité telles que le fine-tuning auto-supervisé (SFT) et l’entraînement postérieur basé sur le renforcement (RL). Nous présentons également des optimisations novatrices en matière d’architecture, d’entraînement et d’inférence, permettant à Kandinsky 5.0 d’atteindre des vitesses de génération élevées et des performances de pointe sur diverses tâches, comme le démontre une évaluation humaine. En tant que cadre générique à grande échelle et publiquement disponible, Kandinsky 5.0 exploite pleinement son entraînement préalable et les étapes ultérieures pour être adapté à un large éventail d’applications génératives. Nous espérons que ce rapport, conjointement à la mise à disposition de notre code open source et de nos points de contrôle d’entraînement, contribuera de manière significative à l’avancement et à l’accessibilité des modèles génératifs de haute qualité au sein de la communauté scientifique.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Kandinsky 5.0 : Une famille de modèles fondamentaux pour la génération d’images et de vidéos | Articles | HyperAI