Choix Hebdomadaires De L'éditeur | MathPile, Corpus De Raisonnement Mathématique Open Source, Union Eye Hospital, Leader Dans L'utilisation De L'ia Pour Aider À La Détection De 13 Maladies Du Fond D'œil

Récemment, le laboratoire de recherche en intelligence artificielle générative (GAIR) de l'université Jiao Tong de ShanghaiL'ensemble de données pré-entraîné de haute qualité et diversifié MathPile, adapté au domaine des mathématiques, et sa version commerciale MathPile-Commercial sont open source.Il est désormais disponible en téléchargement sur le site officiel hyper.ai ! Il y en a d'autres comme MathVista , Math23K et d'autres ensembles de données mathématiques populaires attendent que vous les utilisiez~
Du 19 au 23 février, le site officiel de hyper.ai est mis à jour :
* Ensembles de données publiques de haute qualité : 10
* Étuis en papier AI4S : 4
* Entrées d'encyclopédie populaire : 10
Visitez le site officiel :hyper.ai
Ensembles de données publiques sélectionnés
1. Corpus pré-entraîné de raisonnement mathématique MathPile
Le laboratoire d'intelligence artificielle générative de l'université Jiao Tong de Shanghai a lancé l'ensemble de données MathPile. Il s'agit d'un corpus pré-entraîné de haute qualité et diversifié, spécifiquement destiné au domaine des mathématiques, contenant environ 9,5 milliards de jetons, conçu pour améliorer les capacités de raisonnement mathématique des grands modèles.
Utilisation directe :
https://hyper.ai/datasets/29543
2. MathPile - Corpus de pré-entraînement au raisonnement mathématique commercial (version commerciale)
MathPile-Commercial est une version commerciale de MathPile, obtenue en supprimant les documents de MathPile qui interdisent l'utilisation commerciale (la dernière version, v0.2). Plus précisément, l’équipe de recherche a testé les données sources pour une utilisation non commerciale, en utilisant les informations de licence dans les métadonnées de la source arXiv et en appliquant la correspondance des mots-clés à d’autres sources.
Utilisation directe :
https://hyper.ai/datasets/29545
3. Ensembles de données d'images générées par l'IA
Cet ensemble de données contient 19 images de garçons générées par Copilot. Copilot est un compagnon IA qui crée du contenu imaginatif et innovant. Ces images conviennent aux tâches de détection de visage et de pose, car elles varient en termes d'expressions faciales, de poses, d'arrière-plans, d'éclairage et d'occlusions.
Utilisation directe :
https://hyper.ai/datasets/29527
4. Un ensemble de données de portraits diversifié généré par l'IA
L'ensemble de données contient 140 images de haute qualité soigneusement élaborées par des algorithmes d'IA avancés, dont 70 portraits féminins et 70 portraits masculins. Chaque image de cet ensemble de données démontre la remarquable capacité de l’IA à imiter la complexité de l’apparence humaine.
Utilisation directe :
https://hyper.ai/datasets/29529
5. THUCNews Ensemble de données de classification de textes chinois
THUCNews est généré en filtrant les données historiques de la chaîne d'abonnement RSS de Sina News de 2005 à 2011 et contient 740 000 documents d'actualité (2,19 Go), tous au format texte brut UTF-8. Sur la base du système de classification original de Sina News, l'équipe de recherche l'a réorganisé et divisé en 14 catégories candidates : finance, loterie, immobilier, actions, maison, éducation, technologie, société, mode, actualité, sports, horoscopes, jeux et divertissement.
Utilisation directe :
https://hyper.ai/datasets/29521
6. Ensemble de données de questions-réponses homme-machine bilingues chinois et anglais ShareGPT 90 000
ShareGPT-Chinese-English-90k est un ensemble de données de réponses aux questions homme-machine bilingues de haute qualité en chinois et en anglais, couvrant les données des questions des utilisateurs dans des scénarios réels et complexes. Cet ensemble de données peut être utilisé pour former des modèles de conversation de haute qualité.
Utilisation directe :
https://hyper.ai/datasets/29523
7. Ensemble de données de reconnaissance des intentions de conversation chinoises SMP-2017
Cet ensemble de données est l'ensemble de données de la tâche 1 de l'évaluation de la technologie de dialogue homme-machine chinoise (ECDT) SMP2017. L’évaluation vise à promouvoir le développement de la recherche liée aux systèmes de dialogue homme-machine chinois.
Utilisation directe :
https://hyper.ai/datasets/29515
8. Ensemble de données de classification de textes Toutiao
Cet ensemble de données est un ensemble de données de classification des actualités chinoises de Toutiao (texte court). La source de données est le client Toutiao. Il contient 15 catégories et 382 688 textes, et la période de collecte est mai 2018.
Utilisation directe :
https://hyper.ai/datasets/29517
Pour des ensembles de données plus mis à jour cette semaine, veuillez visiter:
Études de cas ScienceAI Paper
Le diagnostic des maladies ophtalmiques dépend fortement de la reconnaissance d’images, et l’ophtalmologie est très adaptée à l’application de technologies telles que l’apprentissage profond. Afin d'explorer davantage la valeur potentielle de l'apprentissage profond dans le diagnostic des maladies du fond d'œil, Chen Youxin, directeur du département d'ophtalmologie du Peking Union Medical College Hospital, a dirigé une collaboration entre cinq centres d'ophtalmologie à travers le pays, Beijing Zhiyuan Huitu Technology Co., Ltd. et le professeur Li Xirong de l'École d'information de l'Université Renmin de Chine pour développer conjointement un système d'apprentissage profond. Le système aide les ophtalmologues juniors à améliorer la cohérence de leur diagnostic d'environ 12% et fournit une nouvelle méthode pour la détection automatique de 13 maladies majeures du fond d'œil. L'article correspondant a été publié dans la revue « Nature ».
Voir le rapport complet :
L’impact de l’environnement écologique sur la santé humaine est subtil. Le groupe de recherche du professeur Wu Xifeng de l'École de santé publique de l'Université du Zhejiang a utilisé un modèle de réseau neuronal convolutif pour évaluer l'exposition au vert visible en fonction de l'indice de vue verte des images de la rue, puis a étudié s'il existe une association bénéfique entre le niveau de verdure visible sur le lieu de travail et le syndrome métabolique chez les adultes. L'équipe de recherche a utilisé un modèle de régression logistique pour évaluer le niveau de verdure extérieure visible dans l'environnement de travail de plus de 50 000 adultes à Hangzhou et a confirmé l'association bénéfique entre les deux. Les résultats pertinents ont été publiés dans la revue « Environment International ».
Voir le rapport complet :
Institut d'intelligence artificielle de l'Université Jiao Tong de Shanghai L'IA pour la science Le professeur Yang Xiaokang et d'autres membres de l'équipe ont proposé un concept pour la construction d'installations scientifiques intelligentes, formant des fonctions innovantes telles que de grands modèles dans les domaines scientifiques, la simulation générative et l'inversion, des expériences autonomes intelligentes sans pilote et une collaboration de recherche scientifique de confiance à grande échelle. Les résultats de recherche pertinents ont été publiés dans le « Journal de l'Académie chinoise des sciences ».
Voir le rapport complet :
4. Sélectionné par les ingénieurs d'Amazon, une collection de plus de 40 articles LLM
De plus en plus d’entreprises et d’industries traditionnelles commencent à explorer comment appliquer de grands modèles linguistiques à leurs propres activités. La demande croissante du marché a également entraîné un approfondissement et une innovation supplémentaires dans la recherche dans des domaines connexes, et les mises à jour d'articles sur des plateformes telles qu'arXiv sont devenues plus fréquentes. Afin d'aider tout le monde à récupérer plus rapidement des documents de grande valeur, l'ingénieur d'Amazon Eugene Yan et d'autres ont établi une liste de lecture de documents de modèle de langage pour partager en continu des documents de pointe. Actuellement, plus de 40 articles de haute qualité ont été compilés.
Voir le résumé complet de l'article :
Articles populaires de l'encyclopédie
1. Rappel Taux de rappel
2. Apprentissage par renforcement par rétroaction humaine RLHF
3. Intelligence artificielle générale (IAG)
4. L'amélioration de la récupération génère RAG
5. Champ de rayonnement neuronal (NeRF)
Voici des centaines de termes liés à l'IA compilés pour vous aider à comprendre « l'intelligence artificielle » ici :
Voici tout le contenu de la sélection de l’éditeur de cette semaine. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, vous êtes également invités à laisser un message ou à soumettre un article pour nous le dire !
À la semaine prochaine !
À propos d'HyperAI
HyperAI (hyper.ai) est une communauté leader en matière d'intelligence artificielle et de calcul haute performance en Chine.Nous nous engageons à devenir l'infrastructure dans le domaine de la science des données en Chine et à fournir des ressources publiques riches et de haute qualité aux développeurs nationaux. Jusqu'à présent, nous avons :
* Fournir des nœuds de téléchargement accélérés nationaux pour plus de 1 200 ensembles de données publiques
* Comprend plus de 300 tutoriels en ligne classiques et populaires
* Interprétation de plus de 100 cas d'articles AI4Science
* Prise en charge de plus de 500 termes de recherche associés
* Hébergement de la première documentation complète d'Apache TVM en Chine
Visitez le site Web officiel pour commencer votre parcours d'apprentissage :