HyperAIHyperAI

Command Palette

Search for a command to run...

Extrêmement Léger, Sans Compromis Sur La Qualité d'image ! ERNIE-Image-Turbo : Dites Adieu Aux Longues Attentes, Vitesse Fulgurante ; Introduction De Métriques Bidimensionnelles De Perception Et De Cognition : OmniParsingBench, Le Jeu De Données Unifié d'analyse Et d'évaluation Multimodale d'Alibaba, Est Désormais En ligne.

Featured Image

ERNIE-Image-Turbo est un modèle de conversion texte-image haute performance, open source et développé par Baidu. Basé sur une architecture de transformateur de diffusion à flux unique (DiT) et optimisé par les techniques DMD et RL, il génère rapidement des images haute fidélité et esthétiques en seulement 8 étapes d'inférence. Sa conception légère réduit considérablement les contraintes matérielles pour les applications et la recherche.

Tout en conservant une vitesse de génération extrêmement élevée, ce modèle fait preuve d'une grande maîtrise et d'une grande polyvalence. Il exécute avec précision des instructions impliquant plusieurs objets et des relations complexes, et améliore considérablement son rendu de textes longs et denses ainsi que de mises en page structurées, ce qui en fait le choix idéal pour la conception d'affiches, de bandes dessinées à plusieurs cases et d'infographies. De plus, il prend pleinement en charge différents styles esthétiques, notamment la photographie réaliste, la typographie design et les effets cinématographiques subtils, ce qui en fait un outil idéal alliant qualité visuelle et efficacité créative de niveau professionnel.

Le modèle d'image brute « ERNIE-Image-Turbo » est désormais disponible sur le site web d'HyperAI. Essayez-le !

Utilisation en ligne :https://go.hyper.ai/hmKUg

Bienvenue sur notre site web officiel pour plus d'informations :

https://hyper.ai

Aperçu rapide des mises à jour du site web officiel d'hyper.ai du 18 au 24 avril :

* Jeux de données publics de haute qualité : 9

* Une sélection de tutoriels de haute qualité : 5

* Analyse des articles de la communauté : 2 articles

* Entrées d'encyclopédie populaire : 5

* Principales conférences avec date limite en avril : 1

Visitez le site officiel :hyper.ai

Ensembles de données publiques sélectionnés

1. Ensemble de données d'évaluation des capacités d'analyse multimodale d'OmniParsingBench

OmniParsingBench, publié par Alibaba en 2026, est un jeu de données de référence permettant d'évaluer les capacités d'analyse syntaxique unifiées des modèles multimodaux de grande taille (MLLM). Ce jeu de données contient environ 5 294 échantillons, couvrant six domaines modaux (images naturelles, graphiques, documents, audio, vidéo naturelle et vidéo à forte densité de texte), et propose trois niveaux de métriques d'évaluation : perception (Perc.), cognition (Cog.) et performance globale (Ovr.). Chaque échantillon comprend une image ou un fichier audio/vidéo en entrée et une tâche d'analyse syntaxique structurée correspondante.

Utilisation en ligne :https://go.hyper.ai/AqyDg

2.Ensemble de données BRIGHT pour l'évaluation des bâtiments sinistrés

BRIGHT est le premier jeu de données de référence mondial, multimodal et en accès libre, couvrant une grande variété d'événements et intégrant des données d'imagerie optique et de radar à synthèse d'ouverture (SAR). Ce jeu de données inclut 14 régions et 7 types de catastrophes (5 catastrophes naturelles et 2 catastrophes d'origine humaine), et contient environ 4 200 paires d'images, représentant plus de 380 000 bâtiments, avec une résolution spatiale d'environ 0,3 à 1 mètre. Les données comprennent des images prises avant la catastrophe, des images prises après la catastrophe et des annotations des cibles.

Utilisation en ligne :https://go.hyper.ai/RifVg

3. Fleurs : Un ensemble de données d'images de fleurs du Bangladesh

Le jeu de données d'images de fleurs du Bangladesh (Flower Bangladesh Flower Image Dataset) est conçu pour les tâches de classification d'images par vision par ordinateur. Il contient des images réelles de diverses espèces de fleurs prises au Bangladesh. Toutes les images sont originales, non synthétiques et ont été capturées en lumière naturelle, révélant ainsi de riches variations de couleurs. Le jeu de données couvre un large éventail de variétés de fleurs locales et leurs caractéristiques d'apparence, et est classé par catégorie.

Utilisation en ligne :https://go.hyper.ai/wirun

4. Ensemble de données de trajectoires d'inférence et de décision multi-étapes MIA

Le jeu de données MIA (Multi-Step Reasoning and Decision Trajectory), publié conjointement en avril 2026 par l'Université normale de Chine orientale, l'Institut de recherche sur l'innovation de Shanghai et l'Institut de technologie de Harbin, est utilisé pour l'entraînement et l'évaluation d'agents intelligents dotés d'une mémoire à long terme et de capacités d'exécution de tâches. Ce jeu de données contient environ 21 000 trajectoires de raisonnement, couvrant l'ensemble du processus de résolution de problèmes, de planification, de recherche et d'exécution, et convient à la recherche sur le raisonnement des agents et l'apprentissage par renforcement.

Utilisation en ligne :https://go.hyper.ai/XITit

5. Ensemble de données d'amélioration de la netteté Pancolor par télédétection à grande échelle

PanScale est un jeu de données de référence pour l'inférence à grande échelle et l'évaluation des capacités, publié en 2026 par l'Académie chinoise des sciences, en collaboration avec l'Université des sciences et technologies de Chine et l'Université des sciences et technologies de Hong Kong. Ce jeu de données contient 7 559 paires d'images multispectrales (MS) et panchromatiques (PAN) au format TIFF 8 bits. Il couvre plusieurs sous-ensembles, notamment Jilin, Landsat et Skysat, et s'étend à des versions multi-échelles telles que fjilin, flandsat et fskysat, permettant l'évaluation de systèmes pour des scènes allant d'une même échelle à plusieurs échelles (jusqu'à un grossissement de 4x).

Utilisation en ligne :https://go.hyper.ai/mz2gh

6. Ensemble de données de détection des émotions Emotion-probes

Emotion-probes est un ensemble de données textuelles synthétiques conçu pour la compréhension des émotions et la recherche sur l'interprétabilité des modèles. Il vise à extraire les vecteurs émotionnels et les capacités de masquage des émotions à partir des modèles, et est largement utilisé dans la classification des émotions, l'alignement des modèles, la recherche en sécurité et l'analyse des mécanismes internes des grands modèles. L'ensemble de données contient environ 447 000 échantillons. Chaque échantillon comprend des champs tels que l'émotion réelle, l'émotion exprimée, le contenu textuel et des informations sur le rôle.

Utilisation en ligne :https://go.hyper.ai/jw5FA

7. Ensemble de données compressées en mémoire contextuelle OpenMementos

OpenMementos est un jeu de données de compression de contexte et de mémoire, publié par Microsoft en 2026. Il est conçu pour modéliser l'inférence en chaîne longue et les capacités de gestion du contexte des grands modèles. Ce jeu de données vise à entraîner des modèles à effectuer une compression de contexte et une inférence continue, permettant ainsi de réaliser des tâches d'inférence complexes en plusieurs étapes dans une fenêtre de contexte limitée. Il est largement applicable à des scénarios de recherche tels que la modélisation de l'inférence en chaîne longue, l'entraînement de modèles optimisés pour la mémoire et la génération efficace.

Utilisation en ligne :https://go.hyper.ai/RwCkt

8. Ensemble de données d'évaluation des capacités d'analyse syntaxique de documents ParseBench

L'ensemble de données d'évaluation des capacités d'analyse syntaxique de documents ParseBench a été publié par l'équipe LlamaIndex en 2024-2025. Cet ensemble contient environ 2 000 pages validées et annotées manuellement, ainsi que 169 011 règles de test réparties sur cinq dimensions. Ces pages proviennent de documents d'entreprise accessibles au public, couvrant les secteurs de l'assurance, de la finance, du gouvernement et autres. Elles comprennent différents types de pages, notamment des PDF, des images numérisées et des pages contenant des tableaux et des mises en page. Les résultats d'analyse, standardisés et alignés sur les annotations humaines, permettent d'évaluer les performances du modèle en matière de compréhension structurelle et d'extraction d'informations.

Utilisation en ligne :https://go.hyper.ai/FfFR6

9. Ensemble de données SOHL-multidish-yolo pour la détection des plats indiens composés de plusieurs plats.

SOHL Multi-Dish YOLO est un jeu de données de reconnaissance alimentaire destiné aux tâches de détection multi-objets en vision par ordinateur. Basé sur la spécification d'annotation YOLOv8, il se concentre sur la détection de plusieurs plats dans des scènes complexes. Le jeu de données contient 377 images annotées, chacune associée à 377 annotations, couvrant 16 catégories d'aliments. Chaque image présente de 2 à 6 aliments, avec des caractéristiques telles que le chevauchement, la multi-échelle et des agencements complexes.

Utilisation en ligne :https://go.hyper.ai/u5Lng

Tutoriels publics sélectionnés

1. Modèle d'image brute ERNIE-Image-Turbo

ERNIE-Image-Turbo est un modèle de génération de texte en image open source publié par l'équipe Baidu ERNIE-Image en avril 2026. ERNIE-Image-Turbo propose un traçage d'instructions complexe, un rendu de texte, une génération de mise en page d'affiches, une génération d'images structurées et une large couverture de styles, ce qui le rend adapté aux flux de travail de contenu créatif tels que la conception d'affiches, la génération d'illustrations et l'esquisse de concepts d'interface.

Exécutez en ligne :https://go.hyper.ai/hmKUg

Page de démonstration

2. Déploiement en un clic de Qwen 3.6-27B

Qwen3.6-27B est un modèle multimodal dense doté de 27 milliards de paramètres, disponible en open source grâce à l'équipe Tongyi Qianwen. Ce modèle prend toujours en charge les modes de pensée et de non-pensée multimodaux, offrant des performances de pointe en programmation d'agents et surpassant largement son prédécesseur, le modèle open source phare Qwen3.5-397B-A17B. Son architecture dense permet un déploiement sans routage MoE, ce qui en fait un choix idéal pour les développeurs recherchant des capacités de programmation de haut niveau, à la fois pratiques et facilement déployables.

Exécutez en ligne :https://go.hyper.ai/GU9S2

Page de démonstration

3. SAM3.1 : Suivi et segmentation multi-objets vidéo

SAM3.1 (Segment Anything Model 3.1) est un système de suivi et de segmentation d'objets vidéo à vocabulaire ouvert. Ce modèle permet un suivi vidéo multi-objets efficace grâce à l'introduction d'une technologie de multiplexage d'objets.

Exécutez en ligne :https://go.hyper.ai/3e5qL

Page de démonstration

4. Qwen3.6-35B-A3B : Un outil puissant pour la programmation d'agents intelligents.

En avril 2026, l'équipe Qwen a publié le modèle expert hybride multimodal (MoE) Qwen3.6-35B-A3B. Ce modèle comporte un total de 35 milliards de paramètres, mais seuls 3 milliards de paramètres sont activés dans chaque inférence, réduisant ainsi considérablement les coûts d'inférence tout en maintenant des performances élevées.

Exécutez en ligne :https://go.hyper.ai/Gc7bp

Page de démonstration

5. Création de réseaux neuronaux à partir de zéro : un tutoriel NumPy

Ce tutoriel guide les utilisateurs dans la création d'un réseau de neurones simple à partir de zéro, en utilisant uniquement la bibliothèque NumPy. Il aborde en détail les concepts fondamentaux : neurones, poids, propagation avant vers les couches cachées, fonctions d'activation et de perte. Il aide également les utilisateurs à comprendre les principes de la construction de modèles d'apprentissage profond, au-delà du simple appel aux API du framework.

Exécutez en ligne :https://go.hyper.ai/OmyS0

Interprétation des articles communautaires

1. ICLR 2026 | Réduction de 125 fois du nombre de paramètres entraînables par tâche ! La nouvelle méthode Task Tokens aide l'intelligence incarnée à améliorer sa capacité à gérer des tâches complexes.

Une équipe de recherche du Technion – Institut de technologie d'Israël – a proposé une méthode appelée Task Tokens, qui adapte efficacement la méthode BFM à des tâches spécifiques tout en préservant sa flexibilité. Comparée aux méthodes de référence classiques, cette nouvelle méthode réduit jusqu'à 125 fois le nombre de paramètres entraînables par tâche et améliore la vitesse de convergence jusqu'à 6 fois. Les chercheurs ont également validé l'efficacité de Task Tokens sur diverses tâches, y compris dans des scénarios hors distribution, et démontré sa compatibilité avec d'autres méthodes d'amorçage.

Voir le rapport complet :https://go.hyper.ai/vs0C6

2. L'Université de Toronto et d'autres ont proposé dnaHNet, qui améliore la vitesse d'inférence de 3 fois et réduit le coût de calcul de l'apprentissage du génome de près de 4 fois.

Le modèle dnaHNet, proposé conjointement par l'Université de Toronto, l'Institut Vector pour l'intelligence artificielle au Canada et l'Institut Arc aux États-Unis, offre une nouvelle approche pour parvenir à un meilleur équilibre entre faisabilité informatique et fidélité biologique.

Voir le rapport complet :https://go.hyper.ai/dRnYT

Articles populaires de l'encyclopédie

1. Compétences

2. Vérité de base

3. Fonction de perte triplet

4. Réseaux de Kolmogorov-Arnold

5. Fusion de rangs réciproques

Voici des centaines de termes liés à l'IA compilés pour vous aider à comprendre « l'intelligence artificielle » ici :

https://go.hyper.ai/wiki

Voici tout le contenu de la sélection de l’éditeur de cette semaine. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, vous êtes également invités à laisser un message ou à soumettre un article pour nous le dire !

À la semaine prochaine !

À propos d'HyperAI

HyperAI (hyper.ai) est une communauté leader en matière d'intelligence artificielle et de calcul haute performance en Chine.Nous nous engageons à devenir l'infrastructure dans le domaine de la science des données en Chine et à fournir des ressources publiques riches et de haute qualité aux développeurs nationaux. Jusqu'à présent, nous avons :

* Fournit des nœuds de téléchargement accéléré nationaux pour plus de 2100 jeux de données publics

* Comprend plus de 700 tutoriels en ligne classiques et populaires

* Analyse de plus de 300 études de cas sur l'IA au service de la science

* Permet de rechercher plus de 700 termes associés

* Hébergement de la première documentation complète d'Apache TVM en Chine

Visitez le site Web officiel pour commencer votre parcours d'apprentissage :

https://hyper.ai