LongCat-Video, Le Modèle De Génération Vidéo Open Source De Meituan, Combine La Génération Vidéo Basée Sur Du Texte, La Génération Vidéo Basée Sur Des Images Et Les Capacités De Continuation Vidéo, Rivalisant Avec Les Meilleurs Modèles Open Source Et propriétaires.

Les modèles du monde visent à comprendre, simuler et prédire des environnements complexes du monde réel, constituant ainsi un fondement essentiel pour l'application efficace de l'intelligence artificielle dans des situations concrètes. Dans ce cadre, les modèles de génération vidéo, tout au long de leur processus de génération, compressent et apprennent progressivement diverses formes de connaissances, notamment des éléments géométriques, sémantiques et physiques.Par conséquent, elle est considérée comme une voie essentielle pour la construction d'un modèle du monde, et devrait permettre à terme une simulation et une prédiction efficaces de la dynamique du monde physique réel.Dans le domaine de la génération vidéo, il est particulièrement important de parvenir à des capacités de génération vidéo longues et efficaces.

Sur cette base,Meituan a publié en open source son dernier modèle de génération vidéo, LongCat-Video, qui vise à gérer diverses tâches de génération vidéo grâce à une architecture unifiée, notamment la conversion de texte en vidéo, d'image en vidéo et la continuation vidéo.Grâce à ses performances exceptionnelles dans les tâches générales de génération vidéo, LongCat-Video est considéré par l'équipe de recherche comme une étape importante vers la construction d'un véritable « modèle du monde ».

Les principales caractéristiques de LongCat-Video sont les suivantes :

* Architecture unifiée pour de multiples tâches. LongCat-Video unifie les tâches de génération vidéo basées sur du texte, sur des images et de continuation vidéo au sein d'un seul cadre de génération vidéo, en les distinguant par le nombre d'images conditionnelles.

* Capacité de génération de vidéos longues. LongCat-Video est pré-entraîné sur la base de tâches de continuation vidéo, ce qui lui permet de générer des vidéos de plusieurs minutes et d'éviter efficacement la distorsion des couleurs ou d'autres formes de dégradation de la qualité d'image pendant le processus de génération.

* Raisonnement efficace. LongCat-Video utilise une stratégie « grossière à fine » pour générer une vidéo 720p à 30 images par seconde en quelques minutes seulement, améliorant ainsi la précision et l'efficacité de la génération vidéo.

* Les performances exceptionnelles du cadre d'apprentissage par renforcement à récompenses multiples (RLHF). LongCat-Video utilise l'optimisation de politique relative de groupe (GRPO), qui améliore encore les performances du modèle en utilisant plusieurs récompenses, atteignant des performances comparables aux principaux modèles de génération vidéo open-source et aux dernières solutions commerciales.

D'après des évaluations internes de performances comparatives, LongCat-Video obtient de bons résultats dans les tâches vidéo texturées.Il offre des performances exceptionnelles en termes de qualité visuelle et de mouvement, obtenant un score presque équivalent à celui du modèle haut de gamme, Wan2.2.Le modèle a également obtenu d'excellents résultats en matière d'alignement du texte et de qualité globale, offrant ainsi aux utilisateurs une expérience de haute qualité et cohérente sur de multiples plans.

Résultats de l'évaluation MOS pour Wensheng Video basés sur des benchmarks internes

Dans la tâche de conversion d'images en vidéo, LongCat-Video se distingue par sa qualité visuelle, surpassant d'autres modèles tels que Wan2.2 et démontrant un avantage significatif dans la génération d'images de haute qualité. Cependant, des améliorations restent possibles, notamment au niveau de l'alignement des images et de la qualité globale.

Résultats de l'évaluation du MOS vidéo basé sur l'image, fondés sur des benchmarks internes

Récemment, Cloudflare a subi une panne, entraînant des interruptions de connexion pour de nombreuses applications Internet, dont X, ChatGPT et Canva. Découvrons comment LongCat-Video a simulé la réponse à cette panne 👇

Le tutoriel « LongCat-Video : Modèle de génération vidéo IA open source de Meituan » est actuellement disponible dans la section « Tutoriels » du site web HyperAI. Cliquez sur le lien ci-dessous pour accéder au tutoriel de déploiement en un clic ⬇️

Lien du tutoriel :

https://go.hyper.ai/xbXLf

Essai de démonstration

1. Après avoir accédé à la page d'accueil de hyper.ai, sélectionnez « LongCat-Video : modèle de génération vidéo IA open-source de Meituan », ou rendez-vous sur la page « Tutoriels » et sélectionnez-le, puis cliquez sur « Exécuter ce tutoriel en ligne ».

2. Une fois la page redirigée, cliquez sur « Cloner » en haut à droite pour cloner le tutoriel dans votre propre conteneur.

Remarque : Vous pouvez changer de langue en haut à droite de la page. Actuellement, le chinois et l’anglais sont disponibles. Ce tutoriel présente les étapes en anglais.

3. Sélectionnez les images « NVIDIA RTX PRO 6000 Blackwell » et « PyTorch », puis choisissez « Pay As You Go » ou « Daily Plan/Weekly Plan/Monthly Plan » selon vos besoins, puis cliquez sur « Continuer l’exécution de la tâche ».

4. Patientez pendant l'allocation des ressources. Le premier clonage prendra environ 3 minutes. Une fois l'état passé à « En cours d'exécution », cliquez sur la flèche à côté de « Adresse API » pour accéder à la page de démonstration.

Démonstration d'effet

Après avoir accédé à l'interface de démonstration, vous pouvez choisir parmi quatre exemples pour vos tests : conversion d'image en vidéo, conversion de texte en vidéo, vidéo longue et lecture vidéo en continu. Cet article prend pour exemple la conversion d'image en vidéo.

Après avoir téléchargé l'image d'exemple, saisissez « Invite ». Dans « Options avancées », vous pouvez ajuster des paramètres tels que les invites négatives, la résolution et le point de départ de l'aléatoire dans le processus de génération afin d'obtenir un résultat plus optimal.

Récemment, Cloudflare a subi une panne, provoquant des interruptions de connexion pour de nombreuses applications internet, dont X, ChatGPT et Canva. Découvrez la simulation de LongCat-Video illustrant les réactions des utilisateurs face à cette panne 👇

Le tutoriel ci-dessus est celui recommandé par HyperAI cette fois-ci. Bienvenue à tous pour le découvrir !

Lien du tutoriel :

https://go.hyper.ai/xbXLf

HyperAI

LongCat-Video, Le Modèle De Génération Vidéo Open Source De Meituan, Combine La Génération Vidéo Basée Sur Du Texte, La Génération Vidéo Basée Sur Des Images Et Les Capacités De Continuation Vidéo, Rivalisant Avec Les Meilleurs Modèles Open Source Et propriétaires.

il y a 7 mois

Information

Intelligence Artificielle

Open Source

Génération De Vidéo

Vision Par Ordinateur

Les principales caractéristiques de LongCat-Video sont les suivantes :

Lien du tutoriel :

https://go.hyper.ai/xbXLf

Essai de démonstration

2. Une fois la page redirigée, cliquez sur « Cloner » en haut à droite pour cloner le tutoriel dans votre propre conteneur.

Remarque : Vous pouvez changer de langue en haut à droite de la page. Actuellement, le chinois et l’anglais sont disponibles. Ce tutoriel présente les étapes en anglais.

Démonstration d'effet

Le tutoriel ci-dessus est celui recommandé par HyperAI cette fois-ci. Bienvenue à tous pour le découvrir !

Lien du tutoriel :

https://go.hyper.ai/xbXLf

Associé Actualités

Prend En Charge La Génération De Vidéos En Prises De Vues réelles/animations/animaux ; Le Framework open-source De Génération Vidéo Audio multi-styles LongCat 1.5 De Meituan Améliore Les Capacités De Reconstruction De Graphiques Et d'extraction De Tableaux De VLM En Utilisant l'ensemble De Données De Compréhension De Graphiques À Un Million De Niveaux ChartNet.

Les Emojis peuvent-ils Contrôler La Génération De La Parole ? Irodori-TTS Est Un Système De Synthèse Vocale Japonais Basé Sur L’architecture RF-DiT ; Ensembles De Données Sur L’eczéma Et La Teigne : Soutien À La Classification D’images Médicales Et À L’apprentissage Par transfert.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Extrêmement Léger, Sans Compromis Sur La Qualité d'image ! ERNIE-Image-Turbo : Dites Adieu Aux Longues Attentes, Vitesse Fulgurante ; Introduction De Métriques Bidimensionnelles De Perception Et De Cognition : OmniParsingBench, Le Jeu De Données Unifié d'analyse Et d'évaluation Multimodale d'Alibaba, Est Désormais En ligne.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

L'université Cornell a Développé EMSeek, Une Plateforme multi-agents Capable De Transformer Des Images De Microscope Électronique En Informations Sur Les Matériaux En Seulement 2 À 5 minutes.

HyperAI

LongCat-Video, Le Modèle De Génération Vidéo Open Source De Meituan, Combine La Génération Vidéo Basée Sur Du Texte, La Génération Vidéo Basée Sur Des Images Et Les Capacités De Continuation Vidéo, Rivalisant Avec Les Meilleurs Modèles Open Source Et propriétaires.

il y a 7 mois

Information

Intelligence Artificielle

Open Source

Génération De Vidéo

Vision Par Ordinateur

Les principales caractéristiques de LongCat-Video sont les suivantes :

Lien du tutoriel :

https://go.hyper.ai/xbXLf

Essai de démonstration

2. Une fois la page redirigée, cliquez sur « Cloner » en haut à droite pour cloner le tutoriel dans votre propre conteneur.

Remarque : Vous pouvez changer de langue en haut à droite de la page. Actuellement, le chinois et l’anglais sont disponibles. Ce tutoriel présente les étapes en anglais.

Démonstration d'effet

Le tutoriel ci-dessus est celui recommandé par HyperAI cette fois-ci. Bienvenue à tous pour le découvrir !

Lien du tutoriel :

https://go.hyper.ai/xbXLf

Associé Actualités

Prend En Charge La Génération De Vidéos En Prises De Vues réelles/animations/animaux ; Le Framework open-source De Génération Vidéo Audio multi-styles LongCat 1.5 De Meituan Améliore Les Capacités De Reconstruction De Graphiques Et d'extraction De Tableaux De VLM En Utilisant l'ensemble De Données De Compréhension De Graphiques À Un Million De Niveaux ChartNet.

Les Emojis peuvent-ils Contrôler La Génération De La Parole ? Irodori-TTS Est Un Système De Synthèse Vocale Japonais Basé Sur L’architecture RF-DiT ; Ensembles De Données Sur L’eczéma Et La Teigne : Soutien À La Classification D’images Médicales Et À L’apprentissage Par transfert.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Extrêmement Léger, Sans Compromis Sur La Qualité d'image ! ERNIE-Image-Turbo : Dites Adieu Aux Longues Attentes, Vitesse Fulgurante ; Introduction De Métriques Bidimensionnelles De Perception Et De Cognition : OmniParsingBench, Le Jeu De Données Unifié d'analyse Et d'évaluation Multimodale d'Alibaba, Est Désormais En ligne.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

L'université Cornell a Développé EMSeek, Une Plateforme multi-agents Capable De Transformer Des Images De Microscope Électronique En Informations Sur Les Matériaux En Seulement 2 À 5 minutes.

Command Palette

LongCat-Video, Le Modèle De Génération Vidéo Open Source De Meituan, Combine La Génération Vidéo Basée Sur Du Texte, La Génération Vidéo Basée Sur Des Images Et Les Capacités De Continuation Vidéo, Rivalisant Avec Les Meilleurs Modèles Open Source Et propriétaires.

Command Palette

LongCat-Video, Le Modèle De Génération Vidéo Open Source De Meituan, Combine La Génération Vidéo Basée Sur Du Texte, La Génération Vidéo Basée Sur Des Images Et Les Capacités De Continuation Vidéo, Rivalisant Avec Les Meilleurs Modèles Open Source Et propriétaires.

Associé Actualités

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

L'université Cornell a Développé EMSeek, Une Plateforme multi-agents Capable De Transformer Des Images De Microscope Électronique En Informations Sur Les Matériaux En Seulement 2 À 5 minutes.

Command Palette

LongCat-Video, Le Modèle De Génération Vidéo Open Source De Meituan, Combine La Génération Vidéo Basée Sur Du Texte, La Génération Vidéo Basée Sur Des Images Et Les Capacités De Continuation Vidéo, Rivalisant Avec Les Meilleurs Modèles Open Source Et propriétaires.

Associé Actualités

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

L'université Cornell a Développé EMSeek, Une Plateforme multi-agents Capable De Transformer Des Images De Microscope Électronique En Informations Sur Les Matériaux En Seulement 2 À 5 minutes.

Associé Actualités

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

L'université Cornell a Développé EMSeek, Une Plateforme multi-agents Capable De Transformer Des Images De Microscope Électronique En Informations Sur Les Matériaux En Seulement 2 À 5 minutes.

Associé Actualités

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

L'université Cornell a Développé EMSeek, Une Plateforme multi-agents Capable De Transformer Des Images De Microscope Électronique En Informations Sur Les Matériaux En Seulement 2 À 5 minutes.