Divisez Vos Coûts De Formation Par Deux ! OmniConsistency Obtient Des Résultats SOTA Avec 2 600 Images ; Wan2.1-VACE-14B Ouvre Une Nouvelle Dimension À La Génération Vidéo.

Avec l'essor des technologies de vision numérique, les modèles open source ont permis des avancées significatives en matière de stylisation d'images. Cependant, un écart important subsiste avec les modèles commerciaux en termes de cohérence de la stylisation. Pour surmonter ce goulot d'étranglement technique, Show Lab a lancé OmniConsistency, un plug-in de cohérence innovant basé sur un transformateur de diffusion à grande échelle, qui vise à combler l'écart de performance entre les méthodes open source et les modèles commerciaux.
OmniConsistency adopte une stratégie d'apprentissage progressif en deux étapes pour dissocier l'apprentissage du style de la cohérence, atténuant ainsi efficacement le problème de la dégradation du style.Améliore considérablement la cohérence visuelle et la qualité esthétique, atteignant des performances comparables au modèle commercial de pointe GPT-4o.
De plus, pour soutenir la formation et l’évaluation des modèles, l’équipe de recherche a également construit l’ensemble de données de paires d’images stylisées OmniConsistency.Cet ensemble de données utilise GPT-4o pour synthétiser des images d'entrée de 22 styles artistiques différents et génère des annotations de texte descriptives correspondantes pour les images sources et les images stylisées afin de répondre à divers besoins créatifs.
HyperAI a lancé « OmniConsistency : modèle de transfert de style de caractère de niveau GPT-4o » et « ensemble de données de paires d'images stylisées OmniConsistency ». Venez les essayer !
OmniConsistency : modèle de transfert de style de caractère de niveau GPT-4o
Utilisation en ligne :https://go.hyper.ai/WU5fY
Ensemble de données de paires d'images stylisées OmniConsistency
Utilisation en ligne :https://go.hyper.ai/RxZk9
Du 9 au 13 juin, le site officiel hyper.ai est mis à jour :
* Ensembles de données publiques de haute qualité : 10
* Tutoriels de haute qualité : 13
* Articles recommandés cette semaine : 5
* Interprétation des articles communautaires : 4 articles
* Entrées d'encyclopédie populaire : 5
* Principales conférences avec dates limites en juin et juillet : 6
Visitez le site officiel :hyper.ai
Ensembles de données publiques sélectionnés
1. Ensemble de données de raisonnement OpenThoughts3-1,2M
OpenThoughts3-1.2M est un ensemble de données de raisonnement open source qui contient 850 000 questions mathématiques, 250 000 questions de code et 100 000 questions scientifiques, et les annotations sont complétées à l'aide du modèle QwQ-32B.
Utilisation directe :https://go.hyper.ai/1u77Q

2. Ensemble de données de raisonnement OpenThoughts2-1M
L'ensemble de données est basé sur l'ensemble de données OpenThoughts-114k, auquel ont été ajoutés des ensembles de données existants tels qu'OpenR1 et d'autres données de raisonnement mathématique et de code. Il contient un million d'exemples de haute qualité couvrant les mathématiques, les sciences, le code et les énigmes. Les performances du modèle OpenThinker2 entraîné sur cet ensemble de données sont comparables à celles du modèle DeepSeek-R1-Distill.
Utilisation directe :https://go.hyper.ai/FK1Z3

3. Ensemble de données de paires d'images stylisées OmniConsistency
OmniConsistency est un jeu de données de paires d'images multi-styles à grande échelle, axé sur la stylisation d'images et l'apprentissage de la cohérence intermodale. Il vise à fournir des ressources standardisées pour la génération d'images, le transfert de styles et l'apprentissage de modèles multimodaux. Ce jeu de données couvre 22 styles artistiques différents, tels que le dessin animé, la peinture à l'huile, l'art traditionnel, le pixel art, etc., afin de répondre à divers besoins créatifs.
Utilisation directe :https://go.hyper.ai/RxZk9
4. Ensemble de données de caractères Nemotron-Personas
Cet ensemble de données contient des caractères synthétisés artificiellement à partir de données démographiques, de répartition géographique et de traits de personnalité réels, conçus pour saisir la diversité et la richesse de la population. Il s'agit du premier ensemble de données de ce type à inclure des statistiques associées à des attributs tels que le nom, le sexe, l'âge, les antécédents, l'état civil, le niveau d'études, la profession et le lieu de résidence.
Utilisation directe :https://go.hyper.ai/uwpRH
5. Ensemble de données de référence de raisonnement mathématique VCBench
VCBench est un jeu de données de référence conçu pour évaluer le raisonnement mathématique multimodal avec des dépendances visuelles explicites. Il contient 1 720 paires question-réponse et un total de 6 697 images.
Utilisation directe :https://go.hyper.ai/4Ck1t
6. Ensemble de données de référence audio AudioTrust
Cet ensemble de données est un benchmark audio-texte à grande échelle. Premier benchmark d'évaluation de la confiance multidimensionnelle adapté aux grands modèles audio, AudioTrust se concentre sur l'évaluation de la crédibilité multidimensionnelle des grands modèles de langage audio (ALLM).
Utilisation directe :https://go.hyper.ai/WgJSW
7. Ensemble de données de référence de raisonnement juridique LEXam
L'ensemble de données contient 340 examens juridiques réels de différents cursus et niveaux (licence et master) de la Faculté de droit de l'Université de Zurich, en Suisse. Ces examens couvrent le droit suisse, européen et international, ainsi que la théorie et l'histoire du droit. L'ensemble de données comporte un total de 4 886 questions, dont 2 841 questions à réponse longue et 2 045 questions à choix multiples.
Utilisation directe :https://go.hyper.ai/qYpoL
8. Ensemble de données de référence de raisonnement du graphique de trafic ReasonMap
ReasonMap met l'accent sur les relations spatiales et le raisonnement d'itinéraire dans les images. Il s'agit du premier benchmark de raisonnement multimodal axé sur les cartes de transport haute résolution (principalement les plans de métro). Il est conçu pour évaluer la capacité des grands modèles à comprendre des informations spatiales structurées et fines dans les images.
Utilisation directe :https://go.hyper.ai/5ejzs
9. Ensemble de données de reconnaissance vocale multimodale chinois-LiPS
En tant que premier ensemble de données de reconnaissance vocale multimodale chinoise combinant « informations de lecture labiale + informations sémantiques de diapositives », Chinese-LiPS couvre des contextes complexes tels que les explications chinoises, la vulgarisation scientifique, l'enseignement et la diffusion des connaissances, et s'engage à promouvoir le développement de la technologie de reconnaissance vocale multimodale chinoise.
Utilisation directe :https://go.hyper.ai/uaDMt
10. Ensemble de données sur les tumeurs cérébrales
Cet ensemble de données de segmentation et de classification des tumeurs cérébrales par IRM vise à fournir un support de données de haute qualité pour l'analyse d'imagerie médicale des tumeurs cérébrales et est adapté aux tâches de segmentation et de classification des tumeurs cérébrales. Les données contiennent environ 5 000 coupes IRM.
Utilisation directe :https://go.hyper.ai/8qq5w
Tutoriels publics sélectionnés
Cette semaine, nous avons résumé 4 catégories de tutoriels publics de haute qualité :
* Tutoriels de génération de vidéos : 3
* Tutoriels de traitement d'images : 3
*Tutoriels de génération vocale : 2
*Tutoriel de déploiement de grands modèles : 2
*Tutoriels d'IA pour la science : 2
Génération de vidéosTutoriel
1. Tutoriel ComfyUI HunyuanCustom sur le flux de travail de génération de vidéos
HunyuanCustom est un framework de génération vidéo personnalisé multimodal. Ce modèle de génération multimodal et conditionnellement contrôlable s'appuie sur le framework de génération vidéo Hunyuan et est axé sur la cohérence thématique. Il permet de générer des vidéos cohérentes sur le plan thématique, conditionnées par des entrées texte, image, audio et vidéo. Grâce aux fonctionnalités multimodales de HunyuanCustom, de nombreuses tâches en aval peuvent être réalisées.
Ce tutoriel utilise une seule carte RTX 4090 comme ressource, et la génération vidéo prend environ 10 minutes. Il est recommandé d'utiliser un GPU avec 80 Go de mémoire pour une meilleure qualité de génération.
Exécutez en ligne :https://go.hyper.ai/Vw6bJ

2. Tutoriel ComfyUI Wan2.1-VACE-14B sur la conversion d'images en vidéos
Le modèle est formé sur la base Tongyi Wanxiang V2.1 et constitue le premier outil d'IA vidéo du secteur à prendre en charge une combinaison flexible de tâches multiples. Il peut réaliser l'ensemble du processus, de la génération vidéo au montage précis, en une seule étape. Il prend en charge la conversion de texte en vidéo, d'image en vidéo, de première et dernière image en vidéo, etc.
Ce tutoriel utilise une seule carte A6000. La génération d'une vidéo prend environ 30 minutes. Nous recommandons une puissance de calcul supérieure.
Exécutez en ligne :https://go.hyper.ai/4ULKi
3. Démonstration du modèle de diffusion vidéo Vchitect-2.0
Le modèle utilise une conception d'architecture de transformateur parallèle innovante avec 2 milliards de paramètres et peut générer un contenu vidéo fluide et de haute qualité basé sur des invites textuelles.
Ce tutoriel utilise une carte A6000 à carte unique comme ressource, qui peut être déployée en un clic pour générer des vidéos personnalisées.
Exécutez en ligne :https://go.hyper.ai/r6OC2
Tutoriel sur le traitement d'images
1. Démonstration du modèle de langage visuel des sous-titres JoyCaption Beta 1
Le modèle couvre un large éventail de styles d'images, de contenus, d'origines ethniques, de genres et d'orientations, avec un filtrage minimal pour appréhender tous les aspects du monde, sans pour autant autoriser les contenus illégaux. Les utilisateurs peuvent utiliser divers modes et invites pour générer des légendes descriptives adaptées à différents scénarios d'application, tels que les publications sur les réseaux sociaux, les fiches produits, etc.
Ce tutoriel utilise une seule carte RTX 4090 comme ressource. Saisissez le lien pour générer des sous-titres parfaitement adaptés au contenu.
Exécutez en ligne :https://go.hyper.ai/13wrE
2. Décrivez n'importe quoi Modèle de démonstration
Le modèle est capable de générer des descriptions détaillées basées sur des zones définies par l'utilisateur (points, cadres, gribouillis ou masques). Pour les contenus vidéo, une description complète peut être obtenue en annotant simplement la zone sur n'importe quelle image.
Ce tutoriel utilise une seule carte RTX 4090 comme ressource. Vous pouvez la déployer en un clic et cliquer simplement à l'endroit souhaité pour la décrire.
Exécutez en ligne :https://go.hyper.ai/aitMs
3. OmniConsistency : modèle de transfert de style de caractère de niveau GPT-4o
OmniConsistency améliore considérablement la cohérence visuelle et la qualité esthétique, atteignant des performances comparables à celles du modèle commercial le plus avancé, le GPT-4o. Il comble l'écart de performance entre les modèles open source et les modèles commerciaux en termes de cohérence stylistique, offre une solution économique et hautement contrôlable pour la création d'IA et favorise la démocratisation de la technologie de génération d'images. Sa compatibilité et ses fonctionnalités plug-and-play facilitent également son utilisation par les développeurs et les créateurs.
Les ressources informatiques de ce tutoriel utilisent une seule carte RTX A6000. Saisissez le lien pour créer votre propre configuration.
Exécutez en ligne :https://go.hyper.ai/WU5fY

Tutoriel sur la génération vocale
1. Stable-audio-open-small : démonstration du modèle de génération audio
Stable-audio-open-small se concentre sur la création efficace de contenus audio courts et de haute qualité. Basé sur une technologie de modèle de diffusion avancée, il permet aux utilisateurs de générer rapidement des fichiers audio variés, tels que des extraits musicaux, des effets sonores et des sons d'ambiance (boucles de batterie, extraits mélodiques ou paysages sonores naturels) grâce à des invites textuelles. Ce logiciel est adapté à la production musicale, au développement de jeux, aux bandes originales de films et d'émissions de télévision, et à d'autres scénarios.
Ce tutoriel utilise des ressources pour une seule carte A6000 et un déploiement en un clic pour créer de la musique exclusive !
Exécutez en ligne :https://go.hyper.ai/jl9Y3
2. Chatterbox TTS : démonstration de synthèse vocale
Chatterbox est le premier modèle de synthèse vocale open source prenant en charge le contrôle émotionnel exagéré. Il repose sur l'architecture LLaMA avec 500 millions de paramètres et est entraîné à partir de plus de 500 000 heures de données audio sélectionnées. Il prend en charge la génération multilingue et multitimbre, et ses performances surpassent celles des systèmes propriétaires tels qu'ElevenLabs. L'une de ses principales fonctions est le clonage vocal sans échantillon, qui permet de générer des voix personnalisées très réalistes avec seulement 5 secondes de son de référence, sans nécessiter de processus d'entraînement complexe.
Les ressources informatiques utilisées dans ce tutoriel sont une seule carte RTX 4090. Les invites du modèle ne prennent en charge que l'anglais. Venez cloner votre propre voix en un clic.
Exécutez en ligne :https://go.hyper.ai/KAF8m
Tutoriel sur le déploiement de grands modèles
1. Déploiement en un clic de DeepSeek-R1-0528-Qwen3-8B
Le modèle comporte 8 milliards de paramètres. En intégrant les capacités de raisonnement complexes de DeepSeek-R1-0528 au modèle de base Qwen3-8B, plus compact, il combine les capacités multilingues de Qwen3 et l'optimisation du raisonnement de DeepSeek-R1. Ses performances sont comparables à celles de GPT-4 et il permet un déploiement efficace sur une seule carte, ce qui en fait un choix idéal pour les applications académiques et professionnelles.
Les ressources informatiques utilisées dans ce tutoriel sont une seule carte RTX 4090. Saisissez le lien pour déployer le grand modèle amélioré en un clic.
Exécutez en ligne :https://go.hyper.ai/UnQEa
2. vLLM+Open WebUI déploie le modèle de langage dense AM-Thinking-v1
AM-Thinking-v1 est un modèle de langage dense de 32 octets axé sur l'amélioration des capacités de raisonnement. Il affiche d'excellentes performances lors des tests de raisonnement, comparables à celles de grands modèles MoE tels que DeepSeek-R1, Qwen3-235B-A22B, Seed1.5-Thinking, et à des modèles plus denses comme Nemotron-Ultra-253B-v1.
Ce tutoriel utilise des ressources A6000 à double carte, une expérience de clonage en un clic et un modèle de langage dense 32B !
Exécutez en ligne :https://go.hyper.ai/mbAMu
L'IA pour la science Tutoriel
1. Réglage fin du champ de force de l'apprentissage automatique VASP
VASP est un programme informatique de modélisation des matériaux à l'échelle atomique basé sur les principes fondamentaux, tels que les calculs de structure électronique et la dynamique moléculaire de la mécanique quantique. Dans ce tutoriel, nous générerons une série de spectres de phonons correspondants en modifiant continuellement les hyperparamètres d'apprentissage automatique et obtiendrons le fichier de paramètres de champ de force optimal correspondant.
Exécutez en ligne :https://go.hyper.ai/2DmyQ
2. Le champ de force d'apprentissage automatique VASP calcule le spectre des phonons du silicium
Phonopy est une boîte à outils Python permettant de calculer la structure de bande des phonons, les propriétés thermiques, la vitesse de groupe et d'autres grandeurs liées aux phonons aux niveaux harmoniques et quasi-harmoniques. Dans ce tutoriel, nous utiliserons un script automatisé pour illustrer le processus de calcul du spectre de phonons d'un champ de force par apprentissage automatique.
Exécutez en ligne :https://go.hyper.ai/tmnQ4
Recommandation de papier de cette semaine
1. Rapport technique MiMo-VL
Cet article présente deux modèles open source, MiMo-VL-7B-SFT et MiMo-VL-7B-RL, de puissants modèles de langage visuel offrant des performances de pointe en compréhension visuelle générale et en raisonnement multimodal. MiMo-VL-7B-RL surpasse Qwen2.5-VL-7B dans 35 des 40 tâches évaluées et obtient un score de 59,4 sur OlympiadBench, surpassant ainsi les modèles comptant jusqu'à 78 milliards de paramètres. De plus, l'article propose un ensemble complet d'outils d'évaluation couvrant plus de 50 tâches afin de favoriser la reproductibilité et de faire progresser le domaine.
Lien vers l'article :https://go.hyper.ai/0v2Lr
2. Est-ce encore vrai demain ? Classification des questions multilingues pérennes pour une assurance qualité fiable.
Les grands modèles linguistiques (LLM) sont souvent perturbés lors des tâches de questions-réponses (QA). Un facteur essentiel, mais peu étudié, est la nature temporelle des questions, c'est-à-dire leur caractère persistant (la réponse reste stable dans le temps) ou évolutif (la réponse évolue). Cet article présente EverGreenQA, le premier ensemble de données d'AQ multilingue avec des étiquettes persistantes, prenant en charge à la fois l'évaluation et l'apprentissage. Grâce à EverGreenQA, nous comparons 12 grands modèles linguistiques modernes afin de déterminer s'ils encodent la nature temporelle des questions de manière explicite (via des jugements verbaux) ou implicite (via des signaux d'incertitude).
Lien vers l'article :https://go.hyper.ai/UnDRj
3. MambaNeXt-YOLO : un modèle d'espace d'état hybride pour la détection d'objets en temps réel
Cet article propose MambaNeXt-YOLO, un nouveau cadre de détection de cibles qui établit un équilibre entre précision et efficacité. Ses contributions spécifiques incluent les trois aspects suivants : le module MambaNeXt : une conception hybride qui combine des réseaux de neurones convolutifs (CNN) avec la structure d'espace d'état Mamba, qui peut extraire efficacement des caractéristiques locales et modéliser des dépendances à longue portée ; le réseau pyramidal de fusion asymétrique multibranche (MAFPN) : une structure pyramidale de caractéristiques améliorée pour améliorer les capacités de détection multi-échelle de cibles de différentes tailles ; l'optimisation de l'efficacité pour les périphériques de périphérie : sans utiliser de pré-entraînement, notre méthode atteint un mAP de 66,6% et une vitesse d'inférence de 31,9 FPS sur le jeu de données PASCAL VOC, permettant un déploiement efficace sur des périphériques de périphérie tels que NVIDIA Jetson Xavier NX et Orin NX.
Lien vers l'article :https://go.hyper.ai/FGaro
4. ComfyUI-Copilot : un assistant intelligent pour le développement automatisé de flux de travail
Cet article présente ComfyUI-Copilot, un plugin basé sur un modèle de langage volumineux, conçu pour améliorer l'ergonomie et l'efficacité de ComfyUI. Le cœur du système ComfyUI-Copilot adopte une structure multi-agents hiérarchique, comprenant un agent assistant central responsable de l'allocation des tâches et plusieurs agents de travail spécialisés, responsables de tâches à finalité différente. Les résultats montrent qu'il peut recommander des nœuds avec précision et accélérer le développement des workflows.
Lien vers l'article :https://go.hyper.ai/n0WyZ
5. Prot42 : une nouvelle famille de modèles de langage protéique pour la génération de liants protéiques sensibles à la cible
Cet article propose une nouvelle famille de modèles de langage protéique, Prot42, pré-entraînée à partir de séquences protéiques massives non marquées. Prot42 utilise une architecture exclusivement basée sur un décodeur, s'appuie sur les dernières avancées en matière de traitement du langage naturel et permet de capturer en profondeur l'évolution, la structure et la fonction des protéines, élargissant ainsi considérablement les capacités de conception computationnelle de protéines basées sur le langage.
Lien vers l'article :https://go.hyper.ai/nHOJA
Autres articles sur les frontières de l'IA :https://go.hyper.ai/iSYSZ
Interprétation des articles communautaires
Une équipe de recherche conjointe de l'Inception AI Institute d'Abou Dhabi et de Cerebras Systems de la Silicon Valley a développé Prot42, la première famille de modèles de langage protéique (PLM) reposant uniquement sur les informations de séquence protéique et ne nécessitant pas de structure 3D. Elle permet la modélisation de longues séquences et la génération de liants à haute affinité, apportant des avancées révolutionnaires dans le domaine de la conception des protéines.
Voir le rapport complet :https://go.hyper.ai/UMKY8
Les innovations et les pratiques en amont et en aval des compilateurs d'IA continuent d'émerger, et l'intérêt général pour ce domaine ne cesse de croître ! Afin de mieux connecter la recherche de pointe aux scénarios d'application, HyperAI organisera le 7e Salon des technologies Meet AI Compiler à Pékin le 5 juillet. L'édition 2025 du 7e Salon des technologies Meet AI Compiler se tiendra au Garage Coffee de Pékin le 5 juillet.
Voir le rapport complet :https://go.hyper.ai/QM1xm
Le groupe du professeur Liu Yang de l'Université Tsinghua et le groupe du professeur Huang Wenbing de la Gaoling School of Artificial Intelligence de l'Université Renmin de Chine ont proposé conjointement un simulateur unifié de dynamique de grossissement temporel biomoléculaire UniSim, qui a réalisé pour la première fois une simulation unifiée de dynamique de grossissement temporel à travers les types moléculaires (petites molécules, peptides, protéines) et les environnements chimiques.
Voir le rapport complet :https://go.hyper.ai/gQ1ob
L'équipe de l'Université Georg-August a développé un algorithme de biologie computationnelle innovant, SimplifiedBondfinder, pour analyser systématiquement plus de 86 000 structures protéiques à rayons X à haute résolution et a découvert un nouveau type de liaison NOS formée entre l'arginine (Arg)-cystéine et la glycine (Gly)-cystéine qui n'avait jamais été observée auparavant.
Voir le rapport complet :https://go.hyper.ai/nurdR
Articles populaires de l'encyclopédie
1. DALL-E
2. Fusion de tri réciproque RRF
3. Front de Pareto
4. Compréhension linguistique multitâche à grande échelle (MMLU)
5. Apprentissage contrastif
Voici des centaines de termes liés à l'IA compilés pour vous aider à comprendre « l'intelligence artificielle » ici :
La date limite pour la conférence est juin-juillet
19 juin 7:59:59 ICDE 2026
2 juillet 7:59:59 VLDB 2026
11 juillet 7:59:59 POPL 2026
15 juillet 7:59:59 SODA 2026
18 juillet 7:59:59 SIGMOD 2026
19 juillet 7:59:59 ICSE 2026
Suivi unique des principales conférences universitaires sur l'IA :https://go.hyper.ai/event
Voici tout le contenu de la sélection de l’éditeur de cette semaine. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, vous êtes également invités à laisser un message ou à soumettre un article pour nous le dire !
À la semaine prochaine !