Les Choix De La Rédaction Cette Semaine : Le Modèle WorldPlay De Tencent ; Le Modèle De Conception De Protéines RFdiffusion3 ; Maya1, Un Service De Génération De Parole Très Réaliste Et émotionnel.

Les modèles du monde entraînent un changement d'orientation de l'intelligence computationnelle, passant des tâches linguistiques au raisonnement visuel et spatial. En construisant des simulations d'environnements 3D dynamiques, ces modèles permettent aux agents de percevoir des scènes complexes et d'interagir avec elles, ouvrant ainsi de nouvelles perspectives de recherche et d'application dans des domaines tels que l'intelligence incarnée et le développement de jeux vidéo. Actuellement, les modèles du monde sont principalement utilisés pour la génération de vidéos interactives en temps réel, et des progrès significatifs ont été réalisés dans ce domaine.Cependant, la question de savoir comment parvenir simultanément à une faible latence dans la génération en temps réel et à une grande cohérence dans la géométrie à long terme reste un problème clé non résolu dans ce domaine.

Sur cette base,L'équipe Hunyuan de Tencent a lancé WorldPlay, une plateforme de modélisation du monde qui permet une modélisation interactive en temps réel tout en maintenant une cohérence géométrique à long terme.Cela résout efficacement le compromis inhérent entre la vitesse de génération et l'utilisation de la mémoire dans les méthodes existantes. La mise en œuvre de ce système repose sur trois innovations technologiques clés :

*Représentation à double action :Il utilise une représentation à double action pour assurer un contrôle robuste des entrées clavier et souris de l'utilisateur, garantissant ainsi la précision et la stabilité des réponses interactives.

*Reconstruction du mécanisme de mémoire contextuelle :Pour garantir une cohérence à long terme, le modèle conçoit un module de mémoire de contexte de reconstruction dynamique, capable de reconstruire les informations contextuelles des images historiques et de maintenir l'accessibilité des images géométriquement critiques mais anciennes grâce à une stratégie de reconstruction temporelle, atténuant ainsi considérablement le problème de la dégradation de la mémoire.

*Méthode de distillation forcée par contexte :L'équipe de recherche a proposé une nouvelle méthode de distillation spécifiquement conçue pour les modèles de perception de la mémoire, appelée « forçage contextuel ». Cette méthode aligne le contexte mnésique entre les modèles de l'enseignant et de l'élève, permettant au modèle de l'élève de maintenir une vitesse de raisonnement en temps réel sans perdre sa capacité à utiliser des informations distantes, supprimant ainsi efficacement les biais d'erreur.

WorldPlay est capable de générer de manière stable de longues séquences de vidéo en streaming haute définition 720p à 24 images par seconde.Surpassant les technologies existantes sur de multiples plans et faisant preuve d'excellentes capacités de généralisation dans divers scénarios, WorldPlay a franchi une étape cruciale dans la création de modèles du monde cohérents et en temps réel en fournissant un cadre systématique pour le contrôle, la mémoire et le perfectionnement.

Le site web d'HyperAI propose désormais « HY-World 1.5 : un framework de système de modélisation du monde interactif ». Essayez-le !

Utilisation en ligne :https://go.hyper.ai/Dgd3Z

Aperçu rapide des mises à jour du site web officiel d'hyper.ai du 29 décembre au 2 janvier :

* Sélection de tutoriels de haute qualité : 3

* Entrées d'encyclopédie populaire : 5

Principales conférences avec des dates limites en janvier : 10

Visitez le site officiel :hyper.ai

Tutoriels publics sélectionnés

1. HY-World 1.5 : Cadre pour un système de modélisation du monde interactif

HY-World 1.5 (WorldPlay) est le premier modèle de monde interactif en temps réel open source à cohérence géométrique à long terme, développé par l'équipe Hunyuan de Tencent. Ce modèle permet la modélisation d'un monde interactif en temps réel grâce à la technologie de diffusion vidéo en continu, résolvant ainsi le compromis entre vitesse et mémoire des méthodes actuelles.

Exécuter en ligne : https://go.hyper.ai/Dgd3Z

2. Maya1 : Un service de génération vocale très réaliste et émotionnel

Maya1, développé par Maya Research, est un modèle de synthèse vocale (TTS) émotionnel haute fidélité, conçu pour les tâches de synthèse vocale de haute qualité. Il offre une riche expression émotionnelle et un style de parole contrôlable. Ce modèle s'attache à reproduire fidèlement l'état émotionnel, le débit, le ton, le timbre et l'expressivité du locuteur grâce à des descriptions en langage naturel, générant ainsi une parole très réaliste, proche de l'expression humaine.

Exécuter en ligne : https://go.hyper.ai/RmmI3

3. RFdiffusion3 : Modèle de conception de protéines

RFdiffusion3 (RFD3) est un modèle développé par le Protein Design Institute de l'Université de Washington. Ce modèle d'IA de pointe pour la conception de protéines peut générer de nouvelles protéines interagissant avec pratiquement n'importe quelle molécule des cellules vivantes, résolvant ainsi un problème de recherche de longue date qui a longtemps frustré les ingénieurs en protéines.

Exécuter en ligne : https://go.hyper.ai/gv4Rz

Articles populaires de l'encyclopédie

1. Images par seconde (IPS)

2. Mémoire à long terme bidirectionnelle (Bi-LSTM)

3. Attention contrôlée

4. Navigation incarnée

5. Unité récurrente à porte

Voici des centaines de termes liés à l'IA compilés pour vous aider à comprendre « l'intelligence artificielle » ici :

https://go.hyper.ai/wiki

Suivi unique des principales conférences universitaires sur l'IA :https://go.hyper.ai/event

Voici tout le contenu de la sélection de l’éditeur de cette semaine. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, vous êtes également invités à laisser un message ou à soumettre un article pour nous le dire !

À la semaine prochaine !

HyperAI

Les Choix De La Rédaction Cette Semaine : Le Modèle WorldPlay De Tencent ; Le Modèle De Conception De Protéines RFdiffusion3 ; Maya1, Un Service De Génération De Parole Très Réaliste Et émotionnel.

il y a 6 mois

Information

Intelligence Artificielle

Apprentissage Automatique

Apprentissage Profond

Traitement Du Langage Naturel

Le site web d'HyperAI propose désormais « HY-World 1.5 : un framework de système de modélisation du monde interactif ». Essayez-le !

Utilisation en ligne :https://go.hyper.ai/Dgd3Z

Aperçu rapide des mises à jour du site web officiel d'hyper.ai du 29 décembre au 2 janvier :

* Sélection de tutoriels de haute qualité : 3

* Entrées d'encyclopédie populaire : 5

Principales conférences avec des dates limites en janvier : 10

Visitez le site officiel :hyper.ai

Tutoriels publics sélectionnés

1. HY-World 1.5 : Cadre pour un système de modélisation du monde interactif

Exécuter en ligne : https://go.hyper.ai/Dgd3Z

2. Maya1 : Un service de génération vocale très réaliste et émotionnel

Exécuter en ligne : https://go.hyper.ai/RmmI3

3. RFdiffusion3 : Modèle de conception de protéines

Exécuter en ligne : https://go.hyper.ai/gv4Rz

Articles populaires de l'encyclopédie

1. Images par seconde (IPS)

2. Mémoire à long terme bidirectionnelle (Bi-LSTM)

3. Attention contrôlée

4. Navigation incarnée

5. Unité récurrente à porte

Voici des centaines de termes liés à l'IA compilés pour vous aider à comprendre « l'intelligence artificielle » ici :

https://go.hyper.ai/wiki

Suivi unique des principales conférences universitaires sur l'IA :https://go.hyper.ai/event

À la semaine prochaine !

Associé Actualités

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Les Emojis peuvent-ils Contrôler La Génération De La Parole ? Irodori-TTS Est Un Système De Synthèse Vocale Japonais Basé Sur L’architecture RF-DiT ; Ensembles De Données Sur L’eczéma Et La Teigne : Soutien À La Classification D’images Médicales Et À L’apprentissage Par transfert.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Révolution TTS Sans Échantillonnage ! Quelques Secondes D’audio De Référence Suffisent : OmniVoice Vous Permet De Cloner Facilement Des Centaines De Langues ; 17 Langues En Une Seule Fois : MDPbench Résout Le Problème Majeur De L’analyse Syntaxique Des Systèmes De Texte À Faibles ressources.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Extrêmement Léger, Sans Compromis Sur La Qualité d'image ! ERNIE-Image-Turbo : Dites Adieu Aux Longues Attentes, Vitesse Fulgurante ; Introduction De Métriques Bidimensionnelles De Perception Et De Cognition : OmniParsingBench, Le Jeu De Données Unifié d'analyse Et d'évaluation Multimodale d'Alibaba, Est Désormais En ligne.

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

HyperAI

Les Choix De La Rédaction Cette Semaine : Le Modèle WorldPlay De Tencent ; Le Modèle De Conception De Protéines RFdiffusion3 ; Maya1, Un Service De Génération De Parole Très Réaliste Et émotionnel.

il y a 6 mois

Information

Intelligence Artificielle

Apprentissage Automatique

Apprentissage Profond

Traitement Du Langage Naturel

Le site web d'HyperAI propose désormais « HY-World 1.5 : un framework de système de modélisation du monde interactif ». Essayez-le !

Utilisation en ligne :https://go.hyper.ai/Dgd3Z

Aperçu rapide des mises à jour du site web officiel d'hyper.ai du 29 décembre au 2 janvier :

* Sélection de tutoriels de haute qualité : 3

* Entrées d'encyclopédie populaire : 5

Principales conférences avec des dates limites en janvier : 10

Visitez le site officiel :hyper.ai

Tutoriels publics sélectionnés

1. HY-World 1.5 : Cadre pour un système de modélisation du monde interactif

Exécuter en ligne : https://go.hyper.ai/Dgd3Z

2. Maya1 : Un service de génération vocale très réaliste et émotionnel

Exécuter en ligne : https://go.hyper.ai/RmmI3

3. RFdiffusion3 : Modèle de conception de protéines

Exécuter en ligne : https://go.hyper.ai/gv4Rz

Articles populaires de l'encyclopédie

1. Images par seconde (IPS)

2. Mémoire à long terme bidirectionnelle (Bi-LSTM)

3. Attention contrôlée

4. Navigation incarnée

5. Unité récurrente à porte

Voici des centaines de termes liés à l'IA compilés pour vous aider à comprendre « l'intelligence artificielle » ici :

https://go.hyper.ai/wiki

Suivi unique des principales conférences universitaires sur l'IA :https://go.hyper.ai/event

À la semaine prochaine !

Associé Actualités

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Les Emojis peuvent-ils Contrôler La Génération De La Parole ? Irodori-TTS Est Un Système De Synthèse Vocale Japonais Basé Sur L’architecture RF-DiT ; Ensembles De Données Sur L’eczéma Et La Teigne : Soutien À La Classification D’images Médicales Et À L’apprentissage Par transfert.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Révolution TTS Sans Échantillonnage ! Quelques Secondes D’audio De Référence Suffisent : OmniVoice Vous Permet De Cloner Facilement Des Centaines De Langues ; 17 Langues En Une Seule Fois : MDPbench Résout Le Problème Majeur De L’analyse Syntaxique Des Systèmes De Texte À Faibles ressources.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Extrêmement Léger, Sans Compromis Sur La Qualité d'image ! ERNIE-Image-Turbo : Dites Adieu Aux Longues Attentes, Vitesse Fulgurante ; Introduction De Métriques Bidimensionnelles De Perception Et De Cognition : OmniParsingBench, Le Jeu De Données Unifié d'analyse Et d'évaluation Multimodale d'Alibaba, Est Désormais En ligne.

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

Command Palette

Les Choix De La Rédaction Cette Semaine : Le Modèle WorldPlay De Tencent ; Le Modèle De Conception De Protéines RFdiffusion3 ; Maya1, Un Service De Génération De Parole Très Réaliste Et émotionnel.

Command Palette

Les Choix De La Rédaction Cette Semaine : Le Modèle WorldPlay De Tencent ; Le Modèle De Conception De Protéines RFdiffusion3 ; Maya1, Un Service De Génération De Parole Très Réaliste Et émotionnel.

Associé Actualités

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

Command Palette

Les Choix De La Rédaction Cette Semaine : Le Modèle WorldPlay De Tencent ; Le Modèle De Conception De Protéines RFdiffusion3 ; Maya1, Un Service De Génération De Parole Très Réaliste Et émotionnel.

Associé Actualités

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

Associé Actualités

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

Associé Actualités

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.