HyperAIHyperAI

Command Palette

Search for a command to run...

LongCat-Video, Le Modèle De Génération Vidéo Open Source De Meituan, Combine La Génération Vidéo Basée Sur Du Texte, La Génération Vidéo Basée Sur Des Images Et Les Capacités De Continuation Vidéo, Rivalisant Avec Les Meilleurs Modèles Open Source Et propriétaires.

Featured Image

Les modèles du monde visent à comprendre, simuler et prédire des environnements complexes du monde réel, constituant ainsi un fondement essentiel pour l'application efficace de l'intelligence artificielle dans des situations concrètes. Dans ce cadre, les modèles de génération vidéo, tout au long de leur processus de génération, compressent et apprennent progressivement diverses formes de connaissances, notamment des éléments géométriques, sémantiques et physiques.Par conséquent, elle est considérée comme une voie essentielle pour la construction d'un modèle du monde, et devrait permettre à terme une simulation et une prédiction efficaces de la dynamique du monde physique réel.Dans le domaine de la génération vidéo, il est particulièrement important de parvenir à des capacités de génération vidéo longues et efficaces.

Sur cette base,Meituan a publié en open source son dernier modèle de génération vidéo, LongCat-Video, qui vise à gérer diverses tâches de génération vidéo grâce à une architecture unifiée, notamment la conversion de texte en vidéo, d'image en vidéo et la continuation vidéo.Grâce à ses performances exceptionnelles dans les tâches générales de génération vidéo, LongCat-Video est considéré par l'équipe de recherche comme une étape importante vers la construction d'un véritable « modèle du monde ».

Les principales caractéristiques de LongCat-Video sont les suivantes :

* Architecture unifiée pour de multiples tâches. LongCat-Video unifie les tâches de génération vidéo basées sur du texte, sur des images et de continuation vidéo au sein d'un seul cadre de génération vidéo, en les distinguant par le nombre d'images conditionnelles.

* Capacité de génération de vidéos longues. LongCat-Video est pré-entraîné sur la base de tâches de continuation vidéo, ce qui lui permet de générer des vidéos de plusieurs minutes et d'éviter efficacement la distorsion des couleurs ou d'autres formes de dégradation de la qualité d'image pendant le processus de génération.

* Raisonnement efficace. LongCat-Video utilise une stratégie « grossière à fine » pour générer une vidéo 720p à 30 images par seconde en quelques minutes seulement, améliorant ainsi la précision et l'efficacité de la génération vidéo.

* Les performances exceptionnelles du cadre d'apprentissage par renforcement à récompenses multiples (RLHF). LongCat-Video utilise l'optimisation de politique relative de groupe (GRPO), qui améliore encore les performances du modèle en utilisant plusieurs récompenses, atteignant des performances comparables aux principaux modèles de génération vidéo open-source et aux dernières solutions commerciales.

D'après des évaluations internes de performances comparatives, LongCat-Video obtient de bons résultats dans les tâches vidéo texturées.Il offre des performances exceptionnelles en termes de qualité visuelle et de mouvement, obtenant un score presque équivalent à celui du modèle haut de gamme, Wan2.2.Le modèle a également obtenu d'excellents résultats en matière d'alignement du texte et de qualité globale, offrant ainsi aux utilisateurs une expérience de haute qualité et cohérente sur de multiples plans.

Résultats de l'évaluation MOS pour Wensheng Video basés sur des benchmarks internes

Dans la tâche de conversion d'images en vidéo, LongCat-Video se distingue par sa qualité visuelle, surpassant d'autres modèles tels que Wan2.2 et démontrant un avantage significatif dans la génération d'images de haute qualité. Cependant, des améliorations restent possibles, notamment au niveau de l'alignement des images et de la qualité globale.

Résultats de l'évaluation du MOS vidéo basé sur l'image, fondés sur des benchmarks internes

Récemment, Cloudflare a subi une panne, entraînant des interruptions de connexion pour de nombreuses applications Internet, dont X, ChatGPT et Canva. Découvrons comment LongCat-Video a simulé la réponse à cette panne 👇

Le tutoriel « LongCat-Video : Modèle de génération vidéo IA open source de Meituan » est actuellement disponible dans la section « Tutoriels » du site web HyperAI. Cliquez sur le lien ci-dessous pour accéder au tutoriel de déploiement en un clic ⬇️

Lien du tutoriel :

https://go.hyper.ai/xbXLf

Essai de démonstration

1. Après avoir accédé à la page d'accueil de hyper.ai, sélectionnez « LongCat-Video : modèle de génération vidéo IA open-source de Meituan », ou rendez-vous sur la page « Tutoriels » et sélectionnez-le, puis cliquez sur « Exécuter ce tutoriel en ligne ».

2. Une fois la page redirigée, cliquez sur « Cloner » en haut à droite pour cloner le tutoriel dans votre propre conteneur.

Remarque : Vous pouvez changer de langue en haut à droite de la page. Actuellement, le chinois et l’anglais sont disponibles. Ce tutoriel présente les étapes en anglais.

3. Sélectionnez les images « NVIDIA RTX PRO 6000 Blackwell » et « PyTorch », puis choisissez « Pay As You Go » ou « Daily Plan/Weekly Plan/Monthly Plan » selon vos besoins, puis cliquez sur « Continuer l’exécution de la tâche ».

4. Patientez pendant l'allocation des ressources. Le premier clonage prendra environ 3 minutes. Une fois l'état passé à « En cours d'exécution », cliquez sur la flèche à côté de « Adresse API » pour accéder à la page de démonstration.

Démonstration d'effet

Après avoir accédé à l'interface de démonstration, vous pouvez choisir parmi quatre exemples pour vos tests : conversion d'image en vidéo, conversion de texte en vidéo, vidéo longue et lecture vidéo en continu. Cet article prend pour exemple la conversion d'image en vidéo.

Après avoir téléchargé l'image d'exemple, saisissez « Invite ». Dans « Options avancées », vous pouvez ajuster des paramètres tels que les invites négatives, la résolution et le point de départ de l'aléatoire dans le processus de génération afin d'obtenir un résultat plus optimal.

Récemment, Cloudflare a subi une panne, provoquant des interruptions de connexion pour de nombreuses applications internet, dont X, ChatGPT et Canva. Découvrez la simulation de LongCat-Video illustrant les réactions des utilisateurs face à cette panne 👇

Le tutoriel ci-dessus est celui recommandé par HyperAI cette fois-ci. Bienvenue à tous pour le découvrir !

Lien du tutoriel :

https://go.hyper.ai/xbXLf