Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel
1. Introduction au tutoriel

Krea Realtime 14B, publié par l'équipe Krea le 20 octobre 2025, est un modèle de génération vidéo en temps réel doté de 14 milliards de paramètres. Capable de générer des vidéos longues en temps réel, il figure parmi les plus grands modèles de ce type disponibles publiquement. Basé sur le modèle de conversion texte-vidéo Wan 2.1 14B, il utilise un entraînement par distillation auto-forcée pour transformer le modèle de diffusion vidéo traditionnel en une structure autorégressive, offrant ainsi une expérience de génération vidéo véritablement en temps réel. Comparé au modèle Wan 2.1 1.3B précédent, Krea Realtime 14B présente des améliorations significatives en matière de modélisation des mouvements complexes, de reproduction des détails haute fréquence et de cohérence temporelle à long terme. Sur un seul GPU NVIDIA B200, il atteint une fréquence de génération texte-vidéo de 11 images par seconde avec seulement 4 étapes d'inférence. La nature temps réel de Krea Realtime permet aux créateurs de modifier les invites et de prévisualiser les résultats en temps réel pendant le processus de génération, offrant ainsi une expérience interactive créative de « génération et de réalisation simultanées ». Cette fonctionnalité améliore considérablement l'efficacité des itérations dans la création vidéo.
Ce tutoriel utilise une carte graphique RTX-PRO-6000. Les instructions du projet sont disponibles en chinois et en anglais, et prennent en charge la vidéo textuelle, la vidéo image et l'entrée caméra en temps réel.
Veuillez noter que le projet présenté dans ce tutoriel ne prend en charge que l'interface en anglais.
2. Exemples de projets

3. Étapes de l'opération
1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si le message « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Ce modèle étant volumineux, veuillez patienter 5 à 6 minutes, puis actualiser la page.
La première génération vidéo après l'entrée dans le système sera relativement lente, veuillez patienter. La vitesse de génération vidéo augmentera ensuite.
2. Étapes d'utilisation de la fonction texte-vidéo (t2v)

Description des paramètres
- Lecture : Vitesse à laquelle la vidéo est lue après la génération de chaque bloc. Une pause perceptible se produira lorsque la vitesse de lecture est supérieure à 4.
- Mode : Sélectionnez le mode. Il existe trois modes : Texte vers vidéo, Vidéo vers vidéo et Webcam.
- Mot-clé : Permet de déterminer le contenu généré dans la vidéo. Il peut être modifié en cours de production et mis à jour en temps réel en cliquant sur « Appliquer le mot-clé ».
- Étapes de fusion : Détermine le nombre d’étapes nécessaires au modèle pour intégrer progressivement les caractéristiques des nouveaux indices dans la vidéo.
- Intensité du débruitage : intensité de la réduction du bruit. Plus la valeur est élevée, plus le résultat généré s’éloigne de l’image originale, et inversement.
- Fréquence d'images par seconde (FPS) de la webcam : vitesse à laquelle la caméra capture les images. Une valeur appropriée est nécessaire ; sinon, la vitesse de traitement du modèle risque de ne pas suivre.
- Largeur/Hauteur : La largeur et la hauteur de la vidéo finale générée.
- Graine : Graine de génération vidéo. Une graine fixe détermine un résultat de génération.
- Nombre de blocs : Le nombre de blocs vidéo générés. Plus il y a de blocs, plus la vidéo générée est longue.
- Étapes de débruitage : nombre d’itérations effectuées par le modèle pour récupérer une image ou une vidéo à partir du bruit. Plus le nombre d’étapes est élevé, plus le débruitage est précis et la qualité d’image supérieure, mais le temps de traitement est plus long.
- Décalage temporel : Fluidité de la vidéo. Une valeur plus élevée entraîne davantage de changements dans la vidéo, mais augmente le risque d’instabilité ; une valeur plus faible produit des images plus stables, mais peut rendre les mouvements plus lents ou moins perceptibles.
Conseil : Évitez de modifier la largeur et la hauteur, car cela pourrait entraîner des problèmes.
3. Étapes d'utilisation de la transmission vidéo-à-vidéo (v2v)



4. Étapes d'utilisation de la webcam
Prérequis : Cliquez sur Webcam. Une fenêtre contextuelle s’affichera dans votre navigateur concernant votre webcam. Sélectionnez la webcam que vous souhaitez utiliser (une caméra externe ou un enregistreur d’écran feront l’affaire) et autorisez la page web à y accéder. Si aucune fenêtre contextuelle ne s’affiche, vous pouvez également modifier ce paramètre dans les options de votre navigateur.
Chaque navigateur étant différent, ce tutoriel présente les paramètres de la webcam pour Google Chrome.


Si aucune fenêtre contextuelle n'apparaît, vous pouvez également la modifier dans les paramètres de votre navigateur.

Démarrer la génération vidéo de la webcam

5. Téléchargement vidéo
Pour télécharger la vidéo générée, cliquez simplement sur « Télécharger la vidéo ».

6. Foire aux questions
1. Dois-je attendre 5 minutes avant de pouvoir accéder à nouveau à la page web après l'avoir quittée ?
Tant que le récipient n'est pas refermé après ouverture, il n'est pas nécessaire d'attendre à nouveau.
2. L'interface est uniquement en anglais, et je ne connais pas la fonction de chaque fonctionnalité.
Certaines fonctions sont expliquées dans la section « III. Étapes de fonctionnement –> 2. Étapes d'utilisation de la conversion texte-vidéo (T2V) », qui peut contenir des inexactitudes. Pour plus d'informations, veuillez consulter cette section.
3. La vidéo n'est pas apparue.
La configuration initiale était peut-être trop importante, ou le système s'est peut-être déconnecté. Essayez d'actualiser la page web ou d'ajuster les paramètres pour réduire la charge de génération.
4. Aucun résultat n'est affiché après avoir saisi « English » dans l'invite de commande.
Ce projet exige une saisie en anglais très rigoureuse ; toute erreur entraînera l’absence de résultat. Il est donc recommandé de vérifier l’exactitude de votre saisie. La fonction « Invite » prend également en charge la saisie en chinois.
5. La webcam ne répond pas.
Certains navigateurs sont incompatibles avec ce projet ; nous vous recommandons d'essayer Google Chrome ou un autre navigateur. Si vous sélectionnez le mode Webcam lors de votre première tentative de génération, cela peut entraîner des problèmes avec le système. Dans ce cas, nous vous suggérons d'actualiser la page, de générer d'abord un fichier texte-vidéo, puis de passer en mode Webcam et de régler la fréquence d'images de capture à moins de 10 images par seconde. La génération devrait alors se dérouler correctement.
Informations sur la citation
Les informations de citation pour ce projet sont les suivantes :
@software{krea_realtime_14b,
title={Krea Realtime 14B: Real-time Video Generation},
author={Krea AI},
year={2025},
url={https://github.com/krea-ai/realtime-video}
}Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.