HyperAI

Meilleur Tutoriel Public En Ligne ICML SD3 Sur Papier ! DreamBench++ Est Une Nouvelle Référence Pour L'évaluation Automatique Des Images, Permettant Un Alignement Profond Avec Les Préférences Humaines

特色图像

Récemment, les meilleurs articles de l'ICML 2024 ont été annoncés ! Cela inclut le « modèle de célébrité Internet » pour générer des images annuelles - Stable Diffusion 3 (SD3 en abrégé). SD3 est le dernier modèle de génération de texte en image développé par Stability AI, qui a été open source sur l'ensemble du réseau il y a quelque temps !HyperIA  Super Neuro a maintenant lancé un tutoriel sur la façon d'exécuter SD3 dans le flux de travail ComfyUI.Tout le monde est invité à découvrir l’innovation technologique du SD3 en lisant le document !

Lien vers le didacticiel SD3 :https://go.hyper.ai/ojO3g

Du 22 au 26 juillet, le site officiel de hyper.ai est mis à jour :

* Ensembles de données publiques de haute qualité : 10

* Sélection de tutoriels de haute qualité : 3

* Sélection d'articles communautaires : 4 articles

* Entrées d'encyclopédie populaire : 5

* Principales conférences avec date limite en août : 4

Visitez le site officiel :hyper.ai

Ensembles de données publiques sélectionnés

1. Ensemble de données d'images DreamBooth

L'ensemble de données contient 30 sujets de différentes catégories, dont 9 sujets vivants (tels que des chiens et des chats) et 21 objets, avec 4 à 6 images pour chaque sujet. Il permet de former un modèle à l'aide d'un petit nombre d'images, lui permettant de générer des images de cet individu spécifique dans de nombreux contextes différents tout en conservant ses principales caractéristiques visuelles.

Utilisation directe :https://go.hyper.ai/Jiqg6

2. Ensemble de données d'idiomes chinois à grande échelle pour les enfants de moins de 18 ans

L'ensemble de données contient 581 000 paragraphes et 729 000 blancs et couvre plusieurs domaines. Dans ChID, les idiomes dans les paragraphes sont remplacés par des espaces. Pour chaque espace vide, une liste d'idiomes candidats incluant l'idiome d'or est fournie comme choix.

Utilisation directe :https://go.hyper.ai/dt4AR

3. Ensemble de données de correspondance de poésie classique chinoise CCPM

Cet ensemble de données est l'ensemble de données de correspondance de poésie classique chinoise lancé par l'Université Tsinghua en 2021, qui comprend un ensemble d'entraînement (21 778 phrases), un ensemble de validation (2 720 phrases) et un ensemble de test (2 720 phrases).

Utilisation directe :https://go.hyper.ai/ymhF6

4. Ensemble de données de compréhension du dialogue multi-images multi-tours super-long MMDU

Le benchmark MMDU se compose de 110 dialogues multi-images et multi-tours de haute qualité avec plus de 1 600 questions, chacune avec une réponse longue détaillée. Les problèmes dans MMUD impliquent 2 à 20 images, avec une longueur moyenne de balises d'image et de texte de 8,2 000 balises et une longueur maximale de balises d'image et de texte de 18 000 balises, ce qui pose des défis importants aux modèles multimodaux à grande échelle existants.

Utilisation directe :https://go.hyper.ai/vNyjl

5. Ensemble de données d'objets 3D ModeINet10 Princeton

L'ensemble de données ModelNet10 fait partie de l'ensemble de données ModelNet40 et contient 4 899 formes pré-alignées de 10 catégories de modèles de meubles CAO tels que des baignoires, des lits, des chaises et des tables. Parmi eux, 3 991 formes (80%) sont utilisées pour la formation et 908 formes (20%) sont utilisées pour les tests.

Utilisation directe :https://go.hyper.ai/ZPFKs

6. Ensemble de données de détection des chutes

L'ensemble de données contient un dossier d'images et un dossier d'étiquettes. Le dossier images contient deux sous-dossiers train (374 images) pour la formation et Val (111 images) pour la validation.

Utilisation directe :https://go.hyper.ai/WAKTy

7. baike_qa2019 Ensemble de données de questions-réponses sur l'encyclopédie (version JSON)

L'ensemble de données contient 1,5 million de questions et réponses préfiltrées et de haute qualité, chaque question appartenant à une catégorie. Il y a 492 catégories au total, dont 434 catégories ont une fréquence de 10 fois ou plus.

Utilisation directe :https://go.hyper.ai/3KWJ8

8. Ensemble de données de référence d'évaluation automatique d'images DreamBench++

DreamBench++ est un nouveau benchmark lancé conjointement en 2024 par des chercheurs de l'Université Tsinghua, de l'Université Xi'an Jiaotong, de l'Université de l'Illinois à Urbana-Champaign, de l'Académie chinoise des sciences et de Megvii pour résoudre les problèmes d'évaluation de la technologie de génération d'images personnalisées. Il permet un alignement profond et une évaluation automatisée avec les préférences humaines en introduisant le GPT-4o multimodal, et lance un ensemble de données plus complet et plus diversifié.

Utilisation directe :https://go.hyper.ai/glVDV

9. Base de données de radiographie COVID-19 Base de données d'images radiographiques thoraciques

L'ensemble de données contient 3 616 cas positifs de COVID-19, 10 192 cas normaux, 6 012 cas d'opacité pulmonaire (infection pulmonaire non liée à la COVID-19) et 1 345 images de pneumonie virale et les images de masque pulmonaire correspondantes pour aider les chercheurs à mener leurs recherches pendant la pandémie de COVID-19.

Utilisation directe :https://go.hyper.ai/89Wxz

10. Ensemble de données de commande Oceanlnstruct Ocean Large Model

L'ensemble de données contient 20 000 instructions et est conçu pour fournir des données de formation pour des modèles linguistiques à grande échelle dans le domaine marin. Ces instructions couvrent un large éventail de connaissances en sciences marines, garantissant que le modèle dispose de capacités professionnelles en matière de réponse aux questions sur les sciences marines, de génération de contenu et de capacités d'intelligence incarnée sous-marine.

Utilisation directe :https://go.hyper.ai/WuYlv

Pour plus d'ensembles de données publics, veuillez visiter :

https://hyper.ai/datasets

Tutoriels publics sélectionnés

1. Tutoriel en ligne | Stable Diffusion 3 Medium est désormais open source, démarrez votre voyage créatif en un clic !

Le modèle open source Stable Diffusion 3 Medium (SD3) de Stability AI, leader dans le domaine du traitement d'images, présente des améliorations significatives en termes de qualité d'image, de compréhension des invites complexes et d'efficacité des ressources. Il peut générer des images avec des détails réalistes, des couleurs vives et un éclairage naturel, et peut s'adapter à une variété de styles ! Le didacticiel combine les capacités de texte et d'image de SD3 avec le flux de travail de ComfyUI, vous permettant de démarrer immédiatement votre voyage créatif.

Exécutez en ligne :https://go.hyper.ai/ojO3g

2. Kolors Kuaishou, grande démonstration de texte et d'image

Kolors est un modèle de génération de texte en image à grande échelle basé sur la diffusion latente développé par l'équipe Kuaishou Kolors. Formé sur des milliards de paires texte-image, Kolors démontre des avantages significatifs par rapport aux modèles open source et fermés en termes de qualité visuelle, de précision sémantique complexe et de rendu de texte pour les caractères chinois et anglais. Ce tutoriel ne nécessite aucune saisie de commande et vous pouvez démarrer la génération d'images immédiatement avec un clonage en un clic.

Exécutez en ligne :https://go.hyper.ai/ur8q7

3. Déploiement en un clic Mistral-Nemo-Instruct-2407

Mistral-Nemo-Instruct-2407 est une version améliorée de l'instruction Mistral-Nemo-Base-2407 ouverte conjointement par Mistral AI et NVIDIA, et ses performances sont nettement meilleures que celles des modèles existants plus petits ou de taille similaire. Mistral NeMo possède 12 milliards (12B) de paramètres et une fenêtre contextuelle de 128 000, et son raisonnement, sa connaissance du monde et sa précision d'encodage sont à la pointe à une échelle similaire. Ce tutoriel est un déploiement en un clic de Mistral-Nemo-Instruct-2407. L'environnement et les dépendances pertinents ont été installés. Il vous suffit de le cloner pour expérimenter le raisonnement.

Exécutez en ligne :https://go.hyper.ai/zGkci

Articles de la communauté

1. Petit modèle, grande avancée ! Les réseaux neuronaux voient à travers l'hétérogénéité spatiale et décrivent avec précision des phénomènes géographiques complexes

Dans le premier épisode de la série de diffusion en direct « Meet AI4S », HyperAI a eu la chance d'inviter Ding Jiale, doctorant en télédétection et systèmes d'information géographique à l'Université du Zhejiang. Il a donné une explication détaillée et facile à comprendre des résultats de ses recherches sous le titre « Les réseaux neuronaux fournissent de nouvelles explications sur l'hétérogénéité spatiale des prix des logements ». Cet article est un résumé du partage du Dr Ding.

Voir le rapport complet :https://go.hyper.ai/g2fXy

2. En introduisant l'apprentissage zéro coup, l'Université des sciences et technologies de Huazhong a publié un modèle de diffusion conditionnelle optimisé pour le déchiffrement des inscriptions sur os d'oracle

L'équipe de recherche de Bai Xiang et Liu Yuliang de l'Université des sciences et technologies de Huazhong, en collaboration avec l'Université d'Adélaïde, l'Université normale d'Anyang et l'Université de technologie de Chine du Sud, a utilisé un modèle génératif basé sur l'image pour former un modèle de diffusion conditionnelle (OBSD) optimisé pour le déchiffrement des inscriptions sur os d'oracle, offrant une nouvelle approche de la tâche de reconnaissance de caractères anciens qui est difficile à résoudre à l'aide du traitement du langage naturel. Cet article est une interprétation détaillée et un partage des documents pertinents.

Voir le rapport complet :https://go.hyper.ai/fLcZU

3. Résumé de l'ensemble de données : Luobota réalisera-t-il un bénéfice l'année prochaine ? La conduite autonome ouvre une nouvelle ère de « bout en bout » et des ensembles de données de haute qualité aident à intégrer de grands modèles d'IA dans les voitures

La conduite autonome inaugure une nouvelle ère « de bout en bout », dans laquelle les ensembles de données de haute qualité jouent un rôle important. À cet égard, HyperAI a compilé 10 ensembles de données de conduite autonome open source populaires que tout le monde peut collecter et utiliser.

Voir le rapport complet :https://go.hyper.ai/5nj1s

4. Sélectionné pour l'ACL 2024 ! L'Université du Zhejiang lance le premier modèle de langage océanique OceanGPT, faisant de l'intelligence incarnée sous-marine une réalité

L'équipe de Zhang Ningyu et Chen Huajun de l'École d'informatique et de technologie de l'Université du Zhejiang a proposé le premier grand modèle de langage dans le domaine océanique, OceanGPT, qui peut répondre à des questions sur la base des instructions des océanographes et a acquis des capacités préliminaires d'intelligence incorporée en ingénierie marine. Cet article est une interprétation détaillée et un partage des documents pertinents.

Voir le rapport complet :https://go.hyper.ai/b6tqu

Articles populaires de l'encyclopédie

1. Loi d'échelle

2. Modélisation du langage masqué (MLM)

3. Augmentation des données

4. Mémoire à long terme Mémoire à court terme

5. Réseau neuronal quantique

Voici des centaines de termes liés à l'IA compilés pour vous aider à comprendre « l'intelligence artificielle » ici :

https://go.hyper.ai/wiki

Suivi unique des principales conférences universitaires sur l'IA :https://go.hyper.ai/event

Voici tout le contenu de la sélection de l’éditeur de cette semaine. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, vous êtes également invités à laisser un message ou à soumettre un article pour nous le dire !

À la semaine prochaine !

À propos d'HyperAI

HyperAI (hyper.ai) est une communauté leader en matière d'intelligence artificielle et de calcul haute performance en Chine.Nous nous engageons à devenir l'infrastructure dans le domaine de la science des données en Chine et à fournir des ressources publiques riches et de haute qualité aux développeurs nationaux. Jusqu'à présent, nous avons :

* Fournir des nœuds de téléchargement accélérés nationaux pour plus de 1 300 ensembles de données publiques

* Comprend plus de 400 tutoriels en ligne classiques et populaires

* Interprétation de plus de 100 cas d'articles AI4Science

* Prise en charge de plus de 500 termes de recherche associés

* Hébergement de la première documentation complète d'Apache TVM en Chine

Visitez le site Web officiel pour commencer votre parcours d'apprentissage :

https://hyper.ai