HyperAIHyperAI

Fusion De Style Et De Thème De Haute Qualité ! Le Cadre USO Permet d'atteindre Ces Deux Objectifs Grâce Au Découplage Et À l'apprentissage Par La Récompense ; 1 000 Classiques De La MTC ! L'Université Des Sciences Et Technologies De Chine Orientale Lance MedChatZH Pour Aider l'IA À Mieux Comprendre La MTC.

特色图像

Dans le domaine de la génération d’images par IA, il existe souvent un conflit entre le style et le sujet qui est difficile à réaliser simultanément.Génération prioritaire et axée sur le style d'expressions artistiques avec des styles similaires.Par exemple, si on vous demande de générer un « portrait de Picasso de style cubiste », l'IA veillera en priorité à ce que la couleur et les coups de pinceau soient reconnaissables comme étant le style de Picasso en un coup d'œil, tandis que les détails du portrait seront considérablement réduits.Les approches axées sur les thèmes se concentrent sur la recherche de cohérence thématique et leur tâche principale est de « générer avec précision le contenu spécifié ».Lorsque l'invite « un chat portant un nœud papillon rouge » est affichée, l'IA s'assurera que le résultat généré correspond au sujet décrit. Si la scène doit être définie comme étant « au bureau », l'arrière-plan généré peut être flou.

Sur cette base,L'équipe UXO de ByteDance a lancé USO, un cadre unifié pour découpler et restructurer le contenu et le style.En construisant un ensemble de données triplets à grande échelle, en utilisant un schéma d'apprentissage démêlé pour aligner simultanément les fonctionnalités de style et séparer le contenu et le style, et en introduisant l'apprentissage par récompense de style (SRL) pour améliorer encore les performances du modèle, ce cadre permet la libre combinaison de thèmes et de styles, générant des images idéales avec une cohérence de sujet élevée, une forte fidélité de style et une sensation naturelle et non plastique.

USO améliore les performances du modèle grâce au découplage collaboratif intertâches, atteignant le niveau SOTA des modèles open source en termes de cohérence des sujets et de similitude de style.Il brise l’isolement entre le style et le thème dans la génération d’images traditionnelles et atteint l’objectif d’avoir les deux.

Le site officiel d'HyperAI a lancé « USO : Modèle de génération d'images unifié axé sur le style et le sujet ». Venez l'essayer !

Utilisation en ligne:https://go.hyper.ai/VWz1i

Du 1er au 5 septembre, voici un bref aperçu des mises à jour du site officiel hyper.ai :

* Ensembles de données publiques de haute qualité : 10

* Sélection de tutoriels de haute qualité : 5

* Articles recommandés cette semaine : 5

* Interprétation des articles communautaires : 6 articles

* Entrées d'encyclopédie populaire : 5

* Principales conférences avec date limite en septembre : 5

Visitez le site officiel :hyper.ai

Ensembles de données publiques sélectionnés

1. Ensemble de données de suivi de points 3D multi-vues MV3DPT

MV3DPT est un jeu de données de référence spécialement conçu pour le suivi de points 3D arbitraires multi-vues. Il vise à fournir une base pour la recherche sur le suivi en ligne stable de points 3D arbitraires dans des scènes dynamiques, sous plusieurs angles de caméra. Ce jeu de données couvre des scènes synthétiques et réelles, fusionne des données provenant de plusieurs perspectives et permet une prédiction robuste sous occlusion. Il est adapté à l'entraînement et à l'évaluation de modèles de suivi de points 3D et trouve de nombreuses applications en vision par ordinateur et en robotique.

Utilisation directe : https://go.hyper.ai/xs6Kt

Exemple d'ensemble de données

2. Ensemble de données d'évaluation de la compréhension paralinguistique audio StepEval

StepEval Audio Paralinguistic est un ensemble de données d'évaluation de la compréhension paralinguistique audio publié par l'équipe d'IA de StepFun. Il vise à évaluer la capacité des modèles d'IA à comprendre les informations paralinguistiques (telles que le sexe, l'âge, l'intonation, les émotions, etc.) dans la parole.

Utilisation directe : https://go.hyper.ai/d65ah

3. Ensemble de données de référence de télédétection des glissements de terrain Landslide4Sense

Landslide4Sense est un jeu de données de référence de télédétection satellitaire multisources pour la détection des glissements de terrain. Ce jeu de données couvre des scènes de glissements de terrain dans plusieurs régions entre 2015 et 2021. Il est unifié en blocs d'images 128×128 avec une résolution d'environ 10 m/pixel. Chaque échantillon contient 14 bandes (Sentinel-2 multispectral B1–B12 + pente et MNE dérivés d'ALOS PALSAR).

Utilisation directe : https://go.hyper.ai/nDDwN

Exemple d'ensemble de données

4. Ensemble de données d'intégration AlphaEarth Core

AlphaEarth est un jeu de données géospatiales intégrées mondial publié par les équipes de Google DeepMind et de Google Earth Engine. Il vise à compresser les données de télédétection et géographiques multi-sources en données spatio-temporelles intégrées unifiées et réutilisables, permettant une cartographie et une surveillance plus efficaces dans des conditions de rareté des annotations.

Utilisation directe:https://go.hyper.ai/EYcNz

Exemple d'ensemble de données

5. Ensemble de données de référence des meilleures compétitions de programmation d'AetherCode

AetherCode est un jeu de données d'évaluation de compétitions de programmation publié par ByteDance et l'équipe MAP. Il vise à évaluer de manière plus réaliste les capacités de raisonnement algorithmique et de codage de grands modèles grâce à des questions complexes issues de compétitions de premier plan telles que l'IOI, l'ICPC et l'USACO, ainsi qu'à des cas de test de haute qualité vérifiés par des experts.

Utilisation directe : https://go.hyper.ai/oBpK1

6. Ensemble de données de commandes de conversation médicale chinoise MedChatZH

MedChatZH est un ensemble de données de conversations médicales chinoises publié par l'Université des sciences et technologies de Chine orientale. Il vise à améliorer la compréhension et la génération de dialogues de consultation médicale chinoise (notamment dans le cadre de la médecine traditionnelle chinoise) grâce à une formation continue sur les bases de la médecine traditionnelle chinoise et à un perfectionnement des données d'instruction médicale.

Utilisation directe : https://go.hyper.ai/gNRfB

7. Ensemble de données d'images de fractures humaines HBFMID

HBFMID est un jeu de données d'imagerie médicale conçu pour faciliter la détection et la classification des fractures. Ce jeu de données intègre des images multimodales, couvre plusieurs parties du corps et présente différents formats. Entièrement optimisé et clairement segmenté, il est idéal pour l'entraînement et l'évaluation de modèles de détection et de classification des fractures. Il est particulièrement utile pour l'analyse d'images médicales et la recherche en apprentissage profond.

Accès direct : https://go.hyper.ai/IPIOE

Exemple d'ensemble de données

8Ensemble de données sur les préférences humaines HH-RLHF

HH-RLHF est un ensemble de données sur les préférences humaines publié par Anthropic, qui se compose principalement de deux parties : les données sur les préférences humaines bénéfiques/inoffensives (données PM) et les données de dialogue de l'équipe rouge (données non PM).

Utilisation directe : https://go.hyper.ai/u98TI

9. Ensemble de données de questions non résolues UQ

L'ensemble de données UQ est un référentiel d'évaluation publié par l'Université Stanford en collaboration avec l'Université de Washington, l'Université de Caroline du Nord et d'autres institutions. Il vise à évaluer le raisonnement, la facticité et les capacités de navigation de grands modèles de pointe en s'appuyant sur des « questions sans réponse » réelles et complexes de la société humaine.

Utilisation directe : https://go.hyper.ai/BW5qz

10. Ensemble de données d'images et de textes multimodaux Llama Nemotron VLM v1

Llama Nemotron VLM v1 est un jeu de données d'images et de textes de haute qualité publié par NVIDIA pour l'apprentissage post-VLM. Il est utilisé pour prendre en charge le modèle de compréhension de documents Llama-3.1-Nemotron-Nano-VL-8B-V1 publié par NVIDIA (prise en charge des réponses aux questions sur les documents, des réponses aux questions sur les graphes, de l'IA2D et d'autres scénarios).

Utilisation directe : https://go.hyper.ai/KVW6Z

Tutoriels publics sélectionnés

1. Hunyuan-GameCraft-1.0 : Cadre de génération de vidéos de jeux interactifs

Hunyuan-GameCraft-1.0 est un framework de génération de vidéos de jeux interactives hautement dynamiques, développé conjointement par l'équipe Tencent Hunyuan et l'Université des sciences et technologies de Huazhong. En unifiant les entrées clavier et souris dans un espace de représentation de caméra partagé, il permet un contrôle précis des mouvements et prend en charge des entrées interactives complexes.

Exécutez en ligne : https://go.hyper.ai/c48zV

Affichage des effets

2. Hunyuan-MT-7B : démonstration du modèle de traduction

Hunyuan-MT-7B est un modèle de traduction léger développé par l'équipe Tencent Hunyuan. Il ne compte que 7 milliards de paramètres et prend en charge la traduction entre 33 langues et 5 langues/dialectes chinois. Il peut comprendre avec précision l'argot en ligne, la poésie ancienne, les conversations sociales, etc., et effectuer une traduction libre en fonction du contexte. Il propose un paradigme d'apprentissage couvrant l'ensemble de la chaîne, du pré-apprentissage au renforcement intégré.

Exécutez en ligne : https://go.hyper.ai/nv9gJ

Exemples de projets

3. USO : un modèle unifié de génération d'images axées sur le style et le sujet

USO est un framework unifié de découplage et de réorganisation du contenu et du style, lancé par l'équipe UXO de ByteDance. Il permet de combiner librement n'importe quel sujet et n'importe quel style dans n'importe quelle scène, générant des images présentant une grande cohérence thématique, une fidélité stylistique forte et un rendu naturel et non plastique. Des expérimentations ont montré qu'il atteint le meilleur niveau des modèles open source en termes de cohérence thématique et de similarité stylistique. 

Exécutez en ligne : https://go.hyper.ai/VWz1i

Exemples de projets

4. MiniCPM-V 4.5 : le modèle multimodal de bout en bout le plus performant

MiniCPM-V 4.5 est un modèle embarqué à grande échelle extrêmement performant, développé en open source par le Laboratoire de traitement du langage naturel de l'Université Tsinghua et Mianbi Intelligence. Il excelle dans de nombreux domaines, notamment l'image, la vidéo et la reconnaissance optique de caractères (OCR). Il réalise une avancée majeure dans la compréhension des vidéos à taux de rafraîchissement élevé, lui permettant de reconnaître précisément le contenu. Le modèle prend en charge les modes d'inférence hybrides, alliant performances et réactivité.

Exécutez en ligne : https://go.hyper.ai/o3Ns5

Exemples de projets

5. BioEmu : système d'apprentissage profond génératif

BioEmu, un système d'apprentissage profond génératif développé par l'équipe IA pour la science de Microsoft Research, simule efficacement les structures dynamiques et les conformations d'équilibre des protéines. Ce système peut générer des milliers d'échantillons de structures protéiques par heure sur un seul GPU, surpassant largement les simulations de dynamique moléculaire (MD) traditionnelles.

Exécutez en ligne : https://go.hyper.ai/YV75B

💡Nous avons également créé un groupe d'échange de tutoriels Stable Diffusion. Bienvenue aux amis pour scanner le code QR et commenter [tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application ~

Recommandation de papier de cette semaine

1. R-4B : Encourager la capacité d'auto-réflexion à usage général dans les MLLM via le recuit bimode et l'apprentissage renforcé

Cet article propose un modèle de langage multimodal de grande taille, R-4B, capable de raisonnement et de prise de décision automatisés. Il peut décider de manière adaptative d'activer ou non le processus de réflexion en fonction de la complexité du problème. Son concept fondamental est d'utiliser un mécanisme de recuit bimodal pour doter le modèle de capacités de « pensée » et de « non-pensée ». Il utilise également une méthode d'optimisation de stratégie bimodale pour améliorer la capacité du modèle à déterminer avec précision s'il doit activer ou non le processus de raisonnement.

Lien vers l'article : https://go.hyper.ai/3Nq23

2. EmbodiedOneVision : Pré-entraînement vision-texte-action entrelacés pour le contrôle robotique général

Cet article propose EO-Robotics, qui se compose du modèle EO-1 et de l'ensemble de données EO-Data1.5M. EO-1 est un modèle fondamental incarné unifié qui atteint des performances supérieures dans les tâches de raisonnement incarné multimodal et de contrôle robotique grâce à un pré-entraînement vision-texte-action entrelacé.

Lien vers l'article : https://go.hyper.ai/cTtge

3. ASE : une référence au niveau du référentiel pour évaluer la sécurité du code généré par l'IA

Cet article propose ASE (AI Code Generation Security Evaluation), un benchmark au niveau du référentiel pour évaluer la génération de code sécurisée. ASE construit des tâches à partir de référentiels open source réels contenant des vulnérabilités connues (CVE), préservant ainsi pleinement le contexte au niveau du référentiel, y compris les systèmes de build et les dépendances entre fichiers.

Lien vers l'article : https://go.hyper.ai/irGB2

4. Droplet3D : les priors de bon sens issus des vidéos facilitent la génération 3D

Cet article explore l'application de la modalité vidéo à la génération d'actifs 3D, couvrant l'ensemble du processus, de la construction du jeu de données à la conception du modèle. Il propose le premier jeu de données vidéo à grande échelle, Droplet3D-4M, avec annotation hiérarchique multi-vues et entraîne le modèle Droplet3D, un modèle génératif prenant en charge la saisie d'images et de texte dense.

Lien vers l'article : https://go.hyper.ai/BWwsV

5. VerlTool : Vers un apprentissage par renforcement agentique holistique avec l'utilisation d'outils

Cet article propose un cadre unifié et modulaire, VerlTool, qui formalise les ARLT sous forme de trajectoires multi-tours avec des étiquettes d'observation multimodales (texte/images/vidéo), dépassant ainsi les limites du paradigme traditionnel des RLVR mono-tours. Les chercheurs ont entraîné et évalué des modèles sur des tâches telles que le raisonnement mathématique, la réponse à des questions de connaissances, la génération de SQL, le raisonnement visuel, la recherche web et l'ingénierie logicielle, obtenant des performances comparables à celles des systèmes spécialisés tout en fournissant une infrastructure d'entraînement unifiée.

Lien vers l'article : https://go.hyper.ai/NeCSC

Autres articles sur les frontières de l'IA :https://go.hyper.ai/iSYSZ

Interprétation des articles communautaires

1. Diagnostic de la santé mondiale de l’eau : une équipe de l’Université des sciences et technologies de Hong Kong a proposé un modèle d’interpolation et de prédiction spatiotemporelle pour prédire avec précision la distribution spatiotemporelle de la chlorophylle a dans les zones côtières.

Pour répondre à la question du diagnostic de la santé des écosystèmes côtiers, une équipe de l'Université des sciences et technologies de Hong Kong a proposé le modèle d'interpolation et de prédiction spatiotemporelles (STIMP). Grâce à l'intégration de modules spécialement conçus, ce modèle a permis de prédire avec précision la distribution spatiotemporelle de la chlorophylle a, ouvrant ainsi une nouvelle voie pour prédire la chlorophylle a marine sous contraintes spatiotemporelles.

Voir le rapport complet : https://go.hyper.ai/trOfg

2. De directeur de GPT-3 à CTO d'Anthropic, Tom Brown discute de son expérience entrepreneuriale, des lois de mise à l'échelle et de la dépendance à la chaîne d'approvisionnement des puces.

Dans une interview accordée à Y Combinator, Tom Brown, directeur technique d'Anthropic, a retracé son parcours, de la start-up à la recherche en IA. Il a abordé la question de l'adéquation à la demande et de l'impact des lois d'échelle, expliqué les raisons de son départ d'OpenAI pour fonder Anthropic, évoqué les défis et les avancées rencontrés lors du développement de la série de modèles Claude, et révélé les réflexions d'Anthropic concernant sa stratégie multi-puces et sa vision de la sécurité.

Voir le rapport complet : https://go.hyper.ai/d3CFR

3. Le modèle CoTCN développé par l’Institut de physique atmosphérique a considérablement amélioré la précision des prévisions de température de surface de la mer à l’échelle mondiale, avec une erreur de prévision de la température de surface de la mer sur un jour de seulement 0,2 °C.

Lors de la Conférence mondiale sur le calcul haute performance du CCF 2025, une équipe dirigée par le chercheur Lin Pengfei de l'Institut de physique atmosphérique de l'Académie chinoise des sciences a présenté une avancée majeure en matière de recherche. L'équipe a développé avec succès le modèle d'apprentissage profond CoTCN, un cadre couplé Transformer et CNN. Ce modèle a constitué une avancée majeure dans la prévision à court terme de la température de surface de la mer à l'échelle mondiale, fournissant un soutien technique essentiel pour la prévision de l'environnement marin.

Voir le rapport complet : https://go.hyper.ai/Wb1yK

4. Meta AI et al. ont proposé un nouveau cadre de caractérisation de fusion dynamique des protéines, FusionProt, qui permet un échange d'informations itératif et atteint des performances de pointe dans de multiples tâches.

Une équipe de recherche du Technion-Institut israélien de technologie et de Meta AI a proposé un nouveau cadre d'apprentissage de la représentation des protéines appelé FusionProt. Ce cadre utilise des jetons de fusion innovants et apprenables pour échanger itérativement des informations entre les structures de modèles protéiques (PLM) et les structures 3D des protéines, offrant ainsi des performances de pointe pour diverses tâches biologiques.

Voir le rapport complet : https://go.hyper.ai/ZZq4Q

5. Des braconniers bien payés d'OpenAI/Google à un arrêt soudain des embauches : l'examen du personnel clé de Meta MSL : la moitié sont chinois et 751 docteurs TP3T constituent la force principale

Mi-août 2025, le Wall Street Journal annonçait la nouvelle : Meta, après avoir mené à bien une vaste chasse aux talents en IA, suspendait soudainement les recrutements pour son département d'intelligence artificielle. Par la suite, de nombreux employés auraient démissionné.

Voir le rapport complet : https://go.hyper.ai/KMCvz

Articles populaires de l'encyclopédie

1. DALL-E

2. Fusion de tri réciproque RRF

3. Front de Pareto

4. Compréhension linguistique multitâche à grande échelle (MMLU)

5. Apprentissage contrastif

Voici des centaines de termes liés à l'IA compilés pour vous aider à comprendre « l'intelligence artificielle » ici :https://go.hyper.ai/wiki

Suivi unique des principales conférences universitaires sur l'IA :https://go.hyper.ai/event

Voici tout le contenu de la sélection de l’éditeur de cette semaine. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, vous êtes également invités à laisser un message ou à soumettre un article pour nous le dire !

À la semaine prochaine !

À propos d'HyperAI

HyperAI (hyper.ai) est une communauté leader en matière d'intelligence artificielle et de calcul haute performance en Chine.Nous nous engageons à devenir l'infrastructure dans le domaine de la science des données en Chine et à fournir des ressources publiques riches et de haute qualité aux développeurs nationaux. Jusqu'à présent, nous avons :

* Fournir des nœuds de téléchargement accélérés nationaux pour plus de 1 800 ensembles de données publics

* Comprend plus de 600 tutoriels en ligne classiques et populaires

* Interprétation de plus de 200 cas d'articles AI4Science

* Prend en charge la recherche de plus de 600 termes associés

* Hébergement de la première documentation complète d'Apache TVM en Chine

Visitez le site Web officiel pour commencer votre parcours d'apprentissage :

https://hyper.ai

Fusion De Style Et De Thème De Haute Qualité ! Le Cadre USO Permet d'atteindre Ces Deux Objectifs Grâce Au Découplage Et À l'apprentissage Par La Récompense ; 1 000 Classiques De La MTC ! L'Université Des Sciences Et Technologies De Chine Orientale Lance MedChatZH Pour Aider l'IA À Mieux Comprendre La MTC. | Actualités | HyperAI