HyperAI

Choix Hebdomadaires De L'éditeur | Microsoft Ouvre Le Jeu De Données Mathématiques De Haute Qualité Orca-Math, L'équipe De Recherche De L'université Tsinghua Publie Le Modèle De Diffusion De Débruitage Conditionnel SPDiff

特色图像

Orca-Math est un modèle de raisonnement mathématique publié par Microsoft Research.Ce modèle démontre la valeur des modèles plus petits et spécialisés dans des domaines spécifiques, où ils peuvent égaler ou même dépasser les performances des modèles plus grands.Microsoft a récemment ouvert le code source de l'ensemble de données de problèmes mathématiques Orca-Math-200K utilisé pour entraîner Orca-Math. Il est désormais disponible en téléchargement sur le site officiel de hyper.ai. Venez le découvrir !

Du 11 au 15 mars, le site officiel de hyper.ai est mis à jour :

* Ensembles de données publiques de haute qualité : 10

* Tutoriels publics de haute qualité : 2

* Sélection d'articles communautaires : 3 articles

* Entrées d'encyclopédie populaire : 10

Visitez le site officiel :hyper.ai

Ensembles de données publiques sélectionnés

1. Jeu de données de problèmes Microsoft Math Word Orca-Math-200K

Orca-Math-200K est un ensemble de données synthétiques de haute qualité créé par Microsoft qui contient environ 200 000 questions de mathématiques pour l'école primaire. Toutes les réponses de cet ensemble de données sont générées à l’aide d’Azure GPT4-Turbo.

Utilisation directe :

https://my5353.com/30060

2. MULTI-Benchmark : Un classement pour la compréhension multimodale avec du texte et des images

Cet ensemble de données est le benchmark multimodal MULTI publié par l'Université Jiao Tong de Shanghai, qui vise à évaluer la capacité des grands modèles multimodaux à comprendre des tableaux et des images complexes et à effectuer un raisonnement sur des textes longs. Le test fournit des données multimodales et exige que les réponses soient précises ou ouvertes, reflétant un style d'examen réel. MULTI contient plus de 18 000 questions, couvrant une variété de tâches allant de la dérivation de formules à l'analyse d'images et au raisonnement intermodal.

Utilisation directe :

https://my5353.com/30062

3. Corpus d'extraction d'informations à grande échelle IEPile 

IEPile est un ensemble de données d'instructions d'extraction d'informations (IE) bilingue (chinois et anglais) à grande échelle et de haute qualité, développé par l'Université du Zhejiang, couvrant trois sous-tâches principales : la reconnaissance d'entités nommées (NER), l'extraction de relations (RE) et l'extraction d'événements (EE). L'ensemble de données contient environ 2 millions d'échantillons d'instructions, totalisant environ 320 millions de jetons, couvrant plusieurs domaines tels que le général, le médical et le financier.

Utilisation directe :

https://my5353.com/30064

4. Ensemble de données FFHQ-UV-Attributs faciaux intrinsèques pour la reconstruction faciale 3D

FFHQ-UV-Intrinsic est un ensemble de données d'attributs faciaux intrinsèques construit par Ubisoft LaForge sur la base de l'ensemble de données FFHQ-UV. L'ensemble de données contient les attributs intrinsèques du visage de 10 000 sujets, notamment la réflexion diffuse, la réflexion spéculaire, l'occlusion ambiante et les cartes de translucidité. Il s’agit du premier ensemble de données faciales à grande échelle, accessible au public, qui fournit des attributs intrinsèques à haute résolution.

Utilisation directe :

https://my5353.com/30113

5. Ensemble de données de questions-réponses sur le raisonnement graphique multimodal GITQA

GITQA est le premier ensemble de données de réponses aux questions de raisonnement contenant des graphiques visuels créés par l'Université des sciences et technologies de Hong Kong et l'Université des sciences et technologies du Sud. L'ensemble de données contient plus de 423 000 instances de questions-réponses, chacune contenant des informations graphiques-textes-visuelles correspondantes et sa paire question-réponse correspondante.

Utilisation directe :

https://my5353.com/30116

6. Ensemble de données de réglage fin des instructions chimiques SMolInstruct

SMolInstruct est un ensemble de données de réglage fin d'instructions chimiques à grande échelle, complet et de haute qualité proposé par l'Ohio State University. L'ensemble de données contient 14 tâches chimiques différentes, un total de plus de 3 millions d'échantillons et couvre 1,6 million de molécules uniques.

Utilisation directe :

https://my5353.com/30133

7. Grand ensemble de données musicales MusicPile

MusicPile est un ensemble de données de pré-formation musicale et linguistique à grande échelle lancé conjointement par la Multimodal Art Projection Research Community, Skywork AI et l'Université des sciences et technologies de Hong Kong. L'ensemble de données contient 5,17 millions d'échantillons et environ 4,16 milliards de jetons, provenant de sources telles que des livres de musique, des sous-titres de musique YouTube, des ouvrages de notation ABC, etc. MusicPile couvre un large éventail de questions et réponses de bon sens musical et de contenu typique de théorie musicale, qui joue un rôle clé dans l'amélioration de la compréhension musicale et de la capacité de création du grand modèle.

Utilisation directe :

https://my5353.com/30136

8. seq-monkey séquence singe ensemble de données open source 1.0

Sequence Monkey est un modèle de langage à grande échelle fourni par Mobvoi. L'ensemble de données Sequence Monkey est un ensemble de données utilisé pour former le modèle Sequence Monkey. Certains ensembles de données ont été extraits et ouverts au public : les domaines concernés comprennent : le corpus de textes généraux chinois, le corpus de traductions de poésie ancienne et le corpus de génération de textes.

Utilisation directe :

https://my5353.com/30139

9. Ensemble de données de critiques de courts métrages Douban V2

L'ensemble de données contient plus de 2 millions de critiques courtes de 28 films du site Web de films Douban. Il peut être utilisé pour la classification de texte, le regroupement de texte, l'analyse des sentiments, la construction de réseaux sémantiques et d'autres domaines liés à l'exploration Web ou au PNL.

Utilisation directe :

https://my5353.com/30011

10. AdaDR - Ensemble de données de l'article « Repositionnement de médicaments basé sur la méthode GCN adaptative »

Cet ensemble de données est utilisé dans l'article « Repositionnement de médicaments basé sur la méthode GCN adaptative ». Pour évaluer de manière exhaustive les performances du modèle proposé, l'équipe de recherche a utilisé quatre ensembles de données de référence : Gdataset (Gottlieb et al. 2011), Cdataset (Luo et al. 2016), Ldataset (Yu et al. 2021) et LRSSL (Liang et al. 2017), qui peuvent être appliqués à la tâche de repositionnement des médicaments.

Utilisation directe :

https://my5353.com/30057

Pour des ensembles de données plus mis à jour cette semaine, veuillez visiter:

https://hyper.ai/datasets

Tutoriels publics sélectionnés

1. Classification des fleurs à l'aide de l'apprentissage par transfert

Ce didacticiel montre comment utiliser l’apprentissage par transfert pour effectuer une classification d’images sur un ensemble de données d’images de fleurs. Dans ce tutoriel, nous utiliserons un réseau neuronal convolutif pré-entraîné (CNN) comme extracteur de fonctionnalités et construirons un classificateur personnalisé dessus pour prédire les espèces de fleurs.

Exécutez le tutoriel en ligne :

https://my5353.com/n30069

2. Quantification des transformateurs de vision (Vit) pour un déploiement efficace : stratégies et meilleures pratiques

Alors que la demande de systèmes de vision par ordinateur avancés continue de croître dans tous les secteurs, le déploiement de Vision Transformers est devenu une priorité pour les chercheurs et les praticiens. Cependant, pour exploiter pleinement le potentiel de ces modèles, il faut une compréhension approfondie de leur architecture. De plus, il est tout aussi important de développer des stratégies d’optimisation pour déployer efficacement ces modèles.

Ce didacticiel fournit une exploration complète de l'architecture Vision Transformer, de ses composants clés et de la raison qui les rend uniques. À la fin du tutoriel, certaines stratégies d'optimisation sont abordées avec des démonstrations de code pour rendre le modèle plus compact pour un déploiement plus facile.

Exécutez le tutoriel en ligne :

https://my5353.com/n30119

Articles de la communauté

1. Seuls 51 échantillons de formation TP3T sont nécessaires pour obtenir des performances optimales. L'équipe de recherche de l'Université Tsinghua a publié le modèle de diffusion de débruitage conditionnel SPDiff pour réaliser une simulation d'écoulement humain à longue portée

Une équipe de recherche de l'Université Tsinghua a proposé un nouveau modèle de diffusion de débruitage conditionnel SPDiff, qui peut utiliser efficacement la dynamique d'interaction pour simuler le comportement de la foule à travers un processus de diffusion guidé par les forces sociales. L'article connexe a été publié dans AAAI 2024.

Voir le rapport complet :

https://my5353.com/n30069

2. L'équipe de recherche de l'Université normale de Pékin a établi le modèle ECA-Net pour prédire le potentiel d'utilisation de l'énergie éolienne en Chine au cours des 70 prochaines années.

Récemment, une équipe de recherche de l’École de l’environnement de l’Université normale de Pékin a publié un article évaluant la manière dont le potentiel éolien de mon pays va évoluer dans le contexte du réchauffement climatique. L’étude a utilisé 22 modèles climatiques mondiaux CMIP6 comme sortie pour fournir une évaluation robuste des incertitudes inter-modèles. Les résultats montrent que la densité globale de l’énergie éolienne de mon pays connaîtra une légère tendance à la baisse au cours de ce siècle. L'article correspondant a été publié dans « ACS Publications ».

Voir le rapport complet :

https://my5353.com/n30119

3Compte à rebours pour la Nvidia 2024 GTC, Huang Renxun apportera-t-il de nouvelles initiatives pour le marché chinois ?

La conférence GTC AI 2024 est prévue du 18 au 21 mars. Huang Renxun présentera son partage annuel de 4h00 à 6h00, heure de Pékin, le 19 mars, sur le thème « Témoigner du moment transformateur de l'IA ». Sur la base des récents discours, interviews et tendances du secteur de Huang, HyperAI a fait une prédiction audacieuse sur le sujet de son discours.

Voir le rapport complet :

https://my5353.com/n30151

EncyclopédieEntrées sélectionnées

1. Précision moyenne (mAP)

2. Segmentation des instances

3. Intersection sur l'Union (IoU)

4. Interopolation polynomiale

5. Fusion de rang réciproque (RRF)

Voici des centaines de termes liés à l'IA compilés pour vous aider à comprendre « l'intelligence artificielle » ici :

https://hyper.ai/wiki

Aperçu de la diffusion en direct de la station B

datetempscontenu
18 mars
Lundi
10:0017:00Cours d'apprentissage en profondeur du MIT 2020Cours d'apprentissage en profondeur du MIT 2021
Mardi 19 mars10:00Développement d'API Python – Cours complet pour débutants
Mercredi 20 mars10:0014:00Tutoriel SQL - Cours pour débutants : IA générative, cours complet
Jeudi 21 mars21:00Cours Flutter pour débutants
Vendredi 22 mars10:00Cours Flutter pour débutants
Samedi 23 mars10:00Harvard CS50 — Cours d'intelligence artificielle Python
Dimanche 24 mars10:00Apprenez PyTorch pour l'apprentissage profond en une journée

Super Neuro TV diffuse en direct 24h/24 et 7j/7, fournissant en continu des informations sur le secteur de l'IA. Apprenons ensemble :

http://live.bilibili.com/26483094

Voici tout le contenu de la sélection de l’éditeur de cette semaine. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, vous êtes également invités à laisser un message ou à soumettre un article pour nous le dire !

À la semaine prochaine !

À propos d'HyperAI

HyperAI (hyper.ai) est une communauté leader en matière d'intelligence artificielle et de calcul haute performance en Chine.Nous nous engageons à devenir l'infrastructure dans le domaine de la science des données en Chine et à fournir des ressources publiques riches et de haute qualité aux développeurs nationaux. Jusqu'à présent, nous avons :

* Fournir des nœuds de téléchargement accélérés nationaux pour plus de 1 200 ensembles de données publiques

* Comprend plus de 300 tutoriels en ligne classiques et populaires

* Interprétation de plus de 100 cas d'articles AI4Science

* Prise en charge de plus de 500 termes de recherche associés

* Hébergement de la première documentation complète d'Apache TVM en Chine

Visitez le site Web officiel pour commencer votre parcours d'apprentissage :

https://hyper.ai/