ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

il y a 2 mois

Information

Intelligence Artificielle

Reconnaissance D'images

Apprentissage Automatique

Apprentissage Profond

Génération De Vidéo

Vision Par Ordinateur

Lance, développé par ByteDance en 2026, est un modèle multimodal unifié natif. Grâce à son architecture à 3B paramètres d'activité, il permet la compréhension, la génération et l'édition simultanées d'images et de vidéos au sein d'un même environnement. Ce modèle mutualise les capacités entre les tâches de texte, d'image et de vidéo grâce à une représentation multimodale unifiée et un apprentissage collaboratif multitâche. Son architecture repose sur un modèle hybride expert à deux flux (MoE) et un encodage de position rotationnelle prenant en compte la modalité (MaPE), assurant un apprentissage contextuel unifié sur des séquences multimodales entrelacées partagées, tout en dissociant intelligemment les processus de compréhension et de génération. Associé à une stratégie d'apprentissage multitâche par phases, Lance surpasse largement les modèles unifiés open source existants en termes de qualité de génération d'images et de vidéos, tout en conservant d'excellentes capacités de compréhension sémantique multimodale.

Le site web d'HyperAI propose désormais « Lance : Unifier la compréhension, la génération et l'édition de modèles multimodaux », alors venez l'essayer !

Utilisation en ligne :https://go.hyper.ai/Okkmw

Bienvenue sur notre site web officiel pour plus d'informations :

https://hyper.ai

Aperçu rapide des mises à jour du site web officiel d'hyper.ai du 23 au 29 mai :

* Jeux de données publics de haute qualité : 3

* Sélection de tutoriels de haute qualité : 3

* Interprétation d'articles communautaires : 3 articles

* Entrées d'encyclopédie populaire : 5

Visitez le site officiel :hyper.ai

Ensembles de données publiques sélectionnés

1. Ensemble de données ViMU sur la compréhension des métaphores vidéo

ViMU est un ensemble de données de référence pour la compréhension des métaphores vidéo, publié par l'Université nationale de Singapour en 2026. Il vise à évaluer la capacité des grands modèles multimodaux à comprendre les significations sémantiques profondes des métaphores vidéo.

Utilisation en ligne :https://go.hyper.ai/0DIpe

2. Base de données sur les maladies des feuilles de riz

Le jeu de données d'images de feuilles de riz « Détection des maladies des feuilles de riz » est spécialement conçu pour les tâches de détection de cibles en agriculture de précision. Il est largement utilisé dans des applications telles que l'entraînement du modèle YOLO, la détection des maladies agricoles, le déploiement de la vision périphérique et la gestion intelligente des rizières. Ce jeu de données contient 8 665 images de feuilles de riz, réparties en 9 catégories, incluant des feuilles saines et 8 maladies courantes : la brûlure bactérienne, la tache brune, les dégâts causés par la tordeuse des feuilles, la pyriculariose, la brûlure des feuilles, le charbon des feuilles, la tache brune étroite et la pyriculariose du collet.

Utilisation en ligne :https://go.hyper.ai/IXOlY

3. Ensemble de données IRM sur les maladies neurodégénératives cérébrales

Le jeu de données MRI Brain Neurodegenerative Diseases est un ensemble d'images IRM conçu pour la recherche et l'analyse d'images médicales des maladies neurodégénératives du cerveau. Il est largement utilisé dans des domaines de recherche tels que la classification des maladies, la reconnaissance d'images médicales et l'entraînement de modèles d'apprentissage profond. Ce jeu de données contient 2 846 images IRM cérébrales d'une résolution de 512 × 512 pixels, organisées selon deux pondérations d'imagerie et quatre catégories principales.

Utilisation en ligne :https://go.hyper.ai/VpFoh

Tutoriels publics sélectionnés

1. Lance : Un modèle unifié pour comprendre, générer et éditer des données multimodales.

Lance, développé par ByteDance en 2026, est un modèle multimodal unifié natif à l'échelle de 3 milliards de données, conçu pour des tâches telles que la compréhension d'images et de vidéos, la génération d'images et de vidéos à partir de texte, ainsi que l'édition d'images et de vidéos. Sa principale caractéristique est de traiter la compréhension, la génération et l'édition au sein d'un même cadre de modélisation, permettant ainsi aux tâches liées au texte, à l'image et à la vidéo de partager une représentation multimodale unifiée. Lance peut générer des images ou des vidéos à partir de texte, effectuer des modifications visuelles en combinant des images, des vidéos et des instructions textuelles, et répondre à des questions, décrire et raisonner sur des images et des vidéos.

Exécutez en ligne :https://go.hyper.ai/Okkmw

2. Modèle mondial HY-World-2.0

HY-World-2.0 est un framework de modélisation du monde multimodal lancé par Tencent en 2026. Contrairement aux modèles de monde qui ne génèrent que des vidéos pixelisées (comme Genie 3 et Cosmos), HY-World-2.0 génère directement des ressources 3D réalistes (maillage/3DGS), qui sont modifiables, persistantes et peuvent être importées directement dans des moteurs de jeu tels que Blender, Unity et Unreal Engine.

Exécutez en ligne :https://go.hyper.ai/ZQpHM

3. AutoFigure : Un système basé sur LLM pour générer automatiquement des illustrations pour les articles universitaires.

AutoFigure est un système intelligent de génération d'illustrations académiques, développé par l'équipe ResearchAI de l'Université de Westlake et présenté à ICLR 2026. Ce système utilise un modèle de langage (LM) étendu, associé à un mécanisme d'optimisation itératif, pour générer automatiquement des illustrations scientifiques de haute qualité, conformes aux normes de publication, à partir de descriptions textuelles ou d'articles de recherche. Il prend en charge les formats de sortie SVG (graphiques vectoriels) et mxGraph XML (entièrement compatible avec draw.io).

Exécutez en ligne :https://go.hyper.ai/ZrWS4

Interprétation des articles communautaires

1. CVEvolve, un algorithme de traitement d'images scientifiques sans code et à auto-découverte proposé par le Laboratoire national d'Argonne, possède des capacités complètes incluant le codage, l'auto-vérification des résultats et l'optimisation de la stratégie.

Une équipe de recherche du Laboratoire national d'Argonne (ANL), aux États-Unis, a développé CVEvolve, un framework d'agents autonomes sans code, après une analyse systématique des travaux d'automatisation antérieurs basés sur l'IA. Ce framework est conçu pour découvrir les algorithmes nécessaires au traitement des données scientifiques. D'une grande flexibilité, il ne requiert ni architecture de problème prédéfinie ni modèles de processus fixes. Il permet une intégration complète de divers éléments tels que le code, les données, les métriques d'évaluation, les enregistrements de recherche et les résultats de visualisation, facilitant ainsi le développement d'algorithmes exécutables pour la vision par ordinateur, le traitement d'images et d'autres domaines.

Voir le rapport complet :https://go.hyper.ai/UBS5q

2. En seulement 30 minutes, l'agent biologique multi-agent Robin a intégré avec succès 550 articles de recherche, établissant une boucle de recherche autonome et identifiant des thérapies candidates pour la DMLA diabétique.

Une équipe conjointe de FutureHouse (San Francisco), de l'Université d'Oxford et de l'Université Fordham a proposé Robin, un système multi-agents biologiques. Il s'agit du premier système biomédical intelligent intégrant simultanément la génération d'hypothèses scientifiques et l'analyse de données expérimentales, permettant ainsi un flux de travail continu en boucle fermée.

Voir le rapport complet :https://go.hyper.ai/KnYpQ

3. Des scientifiques ont créé indépendamment de nouveaux matériaux en procédant à une rétro-ingénierie de matériaux contenant du gallium à l'aide d'un cadre d'optimisation bayésienne. Les résultats de cette optimisation sont uniques et novateurs.

Une équipe de recherche de l'Université Flinders, en collaboration avec l'Université Khalifa aux Émirats arabes unis, a proposé un cadre d'optimisation bayésienne (OB) guidé par l'apprentissage automatique. Ce cadre permet la conception inverse de compositions à base de gallium aux propriétés électroniques prédéterminées, tout en préservant la rationalité chimique. Les résultats analytiques obtenus après optimisation montrent que le matériau généré présente une unicité et une nouveauté par rapport aux données d'entraînement, et que l'efficacité de la méthode SMACT est significativement améliorée dans la gamme de bandes interdites de 1,5 à 2,5 eV.

Voir le rapport complet :https://go.hyper.ai/kXS7f

Articles populaires de l'encyclopédie

1. Hyperréseaux

2. Matrice de confusion

3. Ingénierie rapide

4. Apprendre en déployant

5. Fusion de rangs réciproques

Voici des centaines de termes liés à l'IA compilés pour vous aider à comprendre « l'intelligence artificielle » ici :

https://go.hyper.ai/wiki

Voici tout le contenu de la sélection de l’éditeur de cette semaine. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, vous êtes également invités à laisser un message ou à soumettre un article pour nous le dire !

À la semaine prochaine !

À propos d'HyperAI

HyperAI (hyper.ai) est une communauté leader en matière d'intelligence artificielle et de calcul haute performance en Chine.Nous nous engageons à devenir l'infrastructure dans le domaine de la science des données en Chine et à fournir des ressources publiques riches et de haute qualité aux développeurs nationaux. Jusqu'à présent, nous avons :

* Fournit des nœuds de téléchargement accéléré nationaux pour plus de 2100 jeux de données publics

* Comprend plus de 700 tutoriels en ligne classiques et populaires

* Analyse de plus de 300 études de cas sur l'IA au service de la science

* Permet de rechercher plus de 700 termes associés

* Hébergement de la première documentation complète d'Apache TVM en Chine

Visitez le site Web officiel pour commencer votre parcours d'apprentissage :

https://hyper.ai

Associé Actualités

Les Emojis peuvent-ils Contrôler La Génération De La Parole ? Irodori-TTS Est Un Système De Synthèse Vocale Japonais Basé Sur L’architecture RF-DiT ; Ensembles De Données Sur L’eczéma Et La Teigne : Soutien À La Classification D’images Médicales Et À L’apprentissage Par transfert.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Articles Exceptionnels De l'ICML 26 : Tsinghua JustGRPO Surmonte Le Goulot d'étranglement De l'inférence dLLM ; Dites Adieu Aux Tests d'instructions Simples : Agents Last Exam Évalue De Manière Exhaustive Les Capacités Professionnelles À Long Terme Des Agents intelligents.

Révolution TTS Sans Échantillonnage ! Quelques Secondes D’audio De Référence Suffisent : OmniVoice Vous Permet De Cloner Facilement Des Centaines De Langues ; 17 Langues En Une Seule Fois : MDPbench Résout Le Problème Majeur De L’analyse Syntaxique Des Systèmes De Texte À Faibles ressources.

Extrêmement Léger, Sans Compromis Sur La Qualité d'image ! ERNIE-Image-Turbo : Dites Adieu Aux Longues Attentes, Vitesse Fulgurante ; Introduction De Métriques Bidimensionnelles De Perception Et De Cognition : OmniParsingBench, Le Jeu De Données Unifié d'analyse Et d'évaluation Multimodale d'Alibaba, Est Désormais En ligne.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Un Modèle De Détection De Confidentialité Exécutable Localement : Privacy Filter Assure Un Filtrage Des Données Personnelles De Haute Qualité À Faible Coût ; Entièrement Open Source ! Compatible Avec L’ensemble De Données Structurées Transfermarkt Contenant Plus De 80 000 Matchs De football.

Prend En Charge La Génération De Vidéos En Prises De Vues réelles/animations/animaux ; Le Framework open-source De Génération Vidéo Audio multi-styles LongCat 1.5 De Meituan Améliore Les Capacités De Reconstruction De Graphiques Et d'extraction De Tableaux De VLM En Utilisant l'ensemble De Données De Compréhension De Graphiques À Un Million De Niveaux ChartNet.

HyperAI

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

il y a 2 mois

Information

Intelligence Artificielle

Reconnaissance D'images

Apprentissage Automatique

Apprentissage Profond

Génération De Vidéo

Vision Par Ordinateur

Le site web d'HyperAI propose désormais « Lance : Unifier la compréhension, la génération et l'édition de modèles multimodaux », alors venez l'essayer !

Utilisation en ligne :https://go.hyper.ai/Okkmw

Bienvenue sur notre site web officiel pour plus d'informations :

https://hyper.ai

Aperçu rapide des mises à jour du site web officiel d'hyper.ai du 23 au 29 mai :

* Jeux de données publics de haute qualité : 3

* Sélection de tutoriels de haute qualité : 3

* Interprétation d'articles communautaires : 3 articles

* Entrées d'encyclopédie populaire : 5

Visitez le site officiel :hyper.ai

Ensembles de données publiques sélectionnés

1. Ensemble de données ViMU sur la compréhension des métaphores vidéo

Utilisation en ligne :https://go.hyper.ai/0DIpe

2. Base de données sur les maladies des feuilles de riz

Utilisation en ligne :https://go.hyper.ai/IXOlY

3. Ensemble de données IRM sur les maladies neurodégénératives cérébrales

Utilisation en ligne :https://go.hyper.ai/VpFoh

Tutoriels publics sélectionnés

1. Lance : Un modèle unifié pour comprendre, générer et éditer des données multimodales.

Exécutez en ligne :https://go.hyper.ai/Okkmw

2. Modèle mondial HY-World-2.0

Exécutez en ligne :https://go.hyper.ai/ZQpHM

3. AutoFigure : Un système basé sur LLM pour générer automatiquement des illustrations pour les articles universitaires.

Exécutez en ligne :https://go.hyper.ai/ZrWS4

Interprétation des articles communautaires

Voir le rapport complet :https://go.hyper.ai/UBS5q

Voir le rapport complet :https://go.hyper.ai/KnYpQ

Voir le rapport complet :https://go.hyper.ai/kXS7f

Articles populaires de l'encyclopédie

1. Hyperréseaux

2. Matrice de confusion

3. Ingénierie rapide

4. Apprendre en déployant

5. Fusion de rangs réciproques

Voici des centaines de termes liés à l'IA compilés pour vous aider à comprendre « l'intelligence artificielle » ici :

https://go.hyper.ai/wiki

À la semaine prochaine !

À propos d'HyperAI

* Fournit des nœuds de téléchargement accéléré nationaux pour plus de 2100 jeux de données publics

* Comprend plus de 700 tutoriels en ligne classiques et populaires

* Analyse de plus de 300 études de cas sur l'IA au service de la science

* Permet de rechercher plus de 700 termes associés

* Hébergement de la première documentation complète d'Apache TVM en Chine

Visitez le site Web officiel pour commencer votre parcours d'apprentissage :

https://hyper.ai

Associé Actualités

Les Emojis peuvent-ils Contrôler La Génération De La Parole ? Irodori-TTS Est Un Système De Synthèse Vocale Japonais Basé Sur L’architecture RF-DiT ; Ensembles De Données Sur L’eczéma Et La Teigne : Soutien À La Classification D’images Médicales Et À L’apprentissage Par transfert.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Articles Exceptionnels De l'ICML 26 : Tsinghua JustGRPO Surmonte Le Goulot d'étranglement De l'inférence dLLM ; Dites Adieu Aux Tests d'instructions Simples : Agents Last Exam Évalue De Manière Exhaustive Les Capacités Professionnelles À Long Terme Des Agents intelligents.

Révolution TTS Sans Échantillonnage ! Quelques Secondes D’audio De Référence Suffisent : OmniVoice Vous Permet De Cloner Facilement Des Centaines De Langues ; 17 Langues En Une Seule Fois : MDPbench Résout Le Problème Majeur De L’analyse Syntaxique Des Systèmes De Texte À Faibles ressources.

Extrêmement Léger, Sans Compromis Sur La Qualité d'image ! ERNIE-Image-Turbo : Dites Adieu Aux Longues Attentes, Vitesse Fulgurante ; Introduction De Métriques Bidimensionnelles De Perception Et De Cognition : OmniParsingBench, Le Jeu De Données Unifié d'analyse Et d'évaluation Multimodale d'Alibaba, Est Désormais En ligne.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Un Modèle De Détection De Confidentialité Exécutable Localement : Privacy Filter Assure Un Filtrage Des Données Personnelles De Haute Qualité À Faible Coût ; Entièrement Open Source ! Compatible Avec L’ensemble De Données Structurées Transfermarkt Contenant Plus De 80 000 Matchs De football.

Prend En Charge La Génération De Vidéos En Prises De Vues réelles/animations/animaux ; Le Framework open-source De Génération Vidéo Audio multi-styles LongCat 1.5 De Meituan Améliore Les Capacités De Reconstruction De Graphiques Et d'extraction De Tableaux De VLM En Utilisant l'ensemble De Données De Compréhension De Graphiques À Un Million De Niveaux ChartNet.

Command Palette

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

Ensembles de données publiques sélectionnés

Tutoriels publics sélectionnés

Interprétation des articles communautaires

Articles populaires de l'encyclopédie

Command Palette

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

Ensembles de données publiques sélectionnés

Tutoriels publics sélectionnés

Interprétation des articles communautaires

Articles populaires de l'encyclopédie

Associé Actualités

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Articles Exceptionnels De l'ICML 26 : Tsinghua JustGRPO Surmonte Le Goulot d'étranglement De l'inférence dLLM ; Dites Adieu Aux Tests d'instructions Simples : Agents Last Exam Évalue De Manière Exhaustive Les Capacités Professionnelles À Long Terme Des Agents intelligents.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Command Palette

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

Ensembles de données publiques sélectionnés

Tutoriels publics sélectionnés

Interprétation des articles communautaires

Articles populaires de l'encyclopédie

Associé Actualités

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Articles Exceptionnels De l'ICML 26 : Tsinghua JustGRPO Surmonte Le Goulot d'étranglement De l'inférence dLLM ; Dites Adieu Aux Tests d'instructions Simples : Agents Last Exam Évalue De Manière Exhaustive Les Capacités Professionnelles À Long Terme Des Agents intelligents.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Associé Actualités

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Articles Exceptionnels De l'ICML 26 : Tsinghua JustGRPO Surmonte Le Goulot d'étranglement De l'inférence dLLM ; Dites Adieu Aux Tests d'instructions Simples : Agents Last Exam Évalue De Manière Exhaustive Les Capacités Professionnelles À Long Terme Des Agents intelligents.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Associé Actualités

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Articles Exceptionnels De l'ICML 26 : Tsinghua JustGRPO Surmonte Le Goulot d'étranglement De l'inférence dLLM ; Dites Adieu Aux Tests d'instructions Simples : Agents Last Exam Évalue De Manière Exhaustive Les Capacités Professionnelles À Long Terme Des Agents intelligents.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.