Résumé De 10 Principaux Ensembles De Données Médicales Chinoises : Couvrant La Médecine Chinoise De Shennong, Les Anciens Livres De Médecine Chinoise, Le Raisonnement Médical, Les Questions Et Réponses Médicales...

Le développement rapide de l’intelligence artificielle médicale ne peut être séparé du soutien d’ensembles de données de haute qualité. Du diagnostic des maladies au développement de médicaments en passant par la médecine personnalisée, les ensembles de données jouent un rôle indispensable dans la promotion de l’application de la vision artificielle, des grands modèles, etc. dans le domaine médical.
Les ensembles de données médicales se présentent sous diverses formes, couvrant des ressources de données dans différentes dimensions et domaines. Par exemple, dans le domaine du diagnostic des maladies, les ensembles de données de type questions-réponses tels que RJUA-QA favorisent l’application automatisée de connaissances médicales complexes ; et dans le domaine de la médecine traditionnelle chinoise, l'ensemble de données de médecine traditionnelle chinoise Shennong intègre la littérature sur la médecine traditionnelle chinoise, les cas cliniques et les données de prescription.
À cette fin, cet article organise 10 ensembles de données dans le domaine médical, couvrant la médecine traditionnelle chinoise de Shennong, les livres de médecine chinoise ancienne, le raisonnement médical, les questions-réponses médicales... dans le but d'aider les chercheurs à comprendre rapidement la distribution et les caractéristiques de ces ressources de données et de fournir une inspiration pour leur application dans des problèmes de recherche spécifiques.
Cliquez pour voir plus d'ensembles de données open source :
Scannez le code QR et notez « dataset » pour rejoindre le groupe de discussion↓

Résumé des ensembles de données médicales chinoises
1. Le premier ensemble de données de raisonnement par questions-réponses sur les spécialités médicales chinoises
Taille estimée :2,34 Mo
Adresse de téléchargement :https://go.hyper.ai/rIwcK
Cet ensemble de données est un ensemble de données de raisonnement innovant de type questions-réponses pour l'urologie médicale, créé par l'équipe Ant Group Medical LLM (Large Language Model) en collaboration avec l'équipe d'experts en urologie de l'hôpital Renji affilié à la faculté de médecine de l'université Jiao Tong de Shanghai. Il est présenté sous la forme Q-contexte-A (question-contexte-réponse), dans laquelle les données du cas sont rédigées par des médecins professionnels sur la base de l'expérience clinique et n'impliquent aucune confidentialité personnelle des patients et des médecins.
2. Ensemble de données de réponses aux questions médicales chinoises
Taille estimée :279,64 Mo
Adresse de téléchargement :https://go.hyper.ai/lM5sd
Cet ensemble de données est un ensemble de questions-réponses médicales chinoises, qui contient 6 dossiers de départements médicaux différents, à savoir : Andrologie (94 596 paires de questions-réponses), Médecine interne (220 606 paires de questions-réponses), Obstétrique et gynécologie (183 751 paires de questions-réponses), Oncologie (75 553 paires de questions-réponses), Pédiatrie (101 602 paires de questions-réponses), Chirurgie (115 991 paires de questions-réponses), totalisant 792 099 points de données. Il y a un fichier csv dans chaque dossier.
3. Ensemble de données de dialogue médical
Taille estimée :118,35 Mo
Adresse de téléchargement :https://go.hyper.ai/MCH57
Il s’agit d’un ensemble de données expérimentales conçu pour exécuter des chatbots médicaux, qui contient 256 916 conversations entre patients et médecins.
4. Ensemble de données sur la médecine traditionnelle chinoise de Shennong
Taille estimée :28,98 Mo
Adresse de téléchargement :https://go.hyper.ai/iJsGu
Cet ensemble de données est spécialement conçu pour la formation et l’évaluation de modèles linguistiques à grande échelle dans le domaine de la médecine traditionnelle chinoise. Il contient plus de 110 000 données d’instructions, générées via une méthode d’auto-instruction centrée sur l’entité. Il se concentre sur les entités fondamentales et les différents scénarios d’intention dans le domaine de la médecine traditionnelle chinoise. Il peut non seulement améliorer la capacité du modèle à répondre aux questions liées à la médecine traditionnelle chinoise, mais également aider au diagnostic de la médecine traditionnelle chinoise et fournir des conseils médicaux personnalisés.
5. Ensemble de données sur les livres anciens de médecine traditionnelle chinoise
Taille estimée :80,49 Mo
Adresse de téléchargement :https://go.hyper.ai/pyHEs
Cet ensemble de données contient environ 700 textes de médecine chinoise ancienne, couvrant les classiques médicaux de la dynastie pré-Qin à la fin de la dynastie Qing et à la République de Chine. Ces documents comprennent non seulement des théories médicales, des prescriptions, de la pharmacologie, etc., mais contiennent également de riches cas cliniques et des connaissances encyclopédiques médicales.
6. Ensemble de données de diagnostic de la médecine traditionnelle chinoise
Taille estimée :341,69 Mo
Adresse de téléchargement :https://go.hyper.ai/cIHaP
Cet ensemble de données est un ensemble de données de haute qualité axé sur le domaine de la médecine traditionnelle chinoise, contenant environ 1 Go de contenu de haute qualité tel que des cas cliniques dans divers domaines de la médecine traditionnelle chinoise, des livres célèbres, des encyclopédies médicales et des glossaires. L'ensemble de données est principalement composé de données internes provenant de sources non liées au réseau. Le 99% est en chinois simplifié avec une excellente qualité et une densité d'informations considérable, ce qui le rend adapté à des fins de pré-formation ou de pré-formation continue.
7. Ensemble de données sur le dialogue en médecine traditionnelle chinoise
Taille estimée :737,32 Mo
Adresse de téléchargement :https://go.hyper.ai/cCrcT
Cet ensemble de données médicales chinoises est une ressource complète pour développer et former des modèles linguistiques capables de fournir des conversations et des recommandations professionnelles dans le domaine médical. Il combine plusieurs types de données, notamment des connaissances encyclopédiques, des textes de manuels, des conversations réelles entre médecins et patients et des données d'évaluation, pour améliorer la précision et la praticité du modèle.
8. Ensemble de données sur le raisonnement médical
Adresse de téléchargement :https://go.hyper.ai/BAVNR
Cet ensemble de données a été publié par l'Université chinoise de Hong Kong et l'Institut de Big Data de Shenzhen en 2024. Il est conçu pour affiner le modèle de langage médical HuatuoGPT-o1 afin d'améliorer ses performances dans les tâches de raisonnement médical complexes.
9. Ensemble de données de référence pour les tests de compétence médicale multilingues
Taille estimée :20,69 Mo
Adresse de téléchargement :https://go.hyper.ai/ux6FF
Cet ensemble de données est un ensemble complet de données de référence de tests de compétence médicale multilingues développé par l'équipe Smart Healthcare de l'École d'intelligence artificielle de l'Université Jiao Tong de Shanghai en 2024. Il vise à évaluer le développement de modèles multilingues dans le domaine médical et couvre 6 langues et 21 sous-domaines médicaux.
10 , Corpus médical multilingue à grande échelle MMedC
Taille estimée :31,05 Go
Adresse de téléchargement :https://go.hyper.ai/K8RcQ
Cet ensemble de données est un corpus médical multilingue construit par l'équipe Smart Healthcare de l'École d'intelligence artificielle de l'Université Jiao Tong de Shanghai en 2024. Il contient environ 25,5 milliards de jetons et couvre 6 langues principales : anglais, chinois, japonais, français, russe et espagnol.
Ce qui précède est l'ensemble de données médicales chinoises compilé par HyperAI. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, n'hésitez pas à laisser un message ou à soumettre une contribution pour nous le faire savoir !
À propos d'HyperAI
HyperAI (hyper.ai) est une communauté leader en matière d'intelligence artificielle et de calcul haute performance en Chine.Nous nous engageons à devenir l'infrastructure dans le domaine de la science des données en Chine et à fournir des ressources publiques riches et de haute qualité aux développeurs nationaux. Jusqu'à présent, nous avons :
* Fournir des nœuds de téléchargement accélérés nationaux pour plus de 1 300 ensembles de données publiques
* Comprend plus de 400 tutoriels en ligne classiques et populaires
* Interprétation de plus de 200 cas d'articles AI4Science
* Prise en charge de plus de 500 termes de recherche associés
* Hébergement de la première documentation complète d'Apache TVM en Chine
Visitez le site Web officiel pour commencer votre parcours d'apprentissage :