HyperAIHyperAI

Command Palette

Search for a command to run...

Résumé De 10 Principaux Ensembles De Données Médicales Chinoises : Couvrant La Médecine Chinoise De Shennong, Les Anciens Livres De Médecine Chinoise, Le Raisonnement Médical, Les Questions Et Réponses médicales...

Featured Image

Le développement rapide de l’intelligence artificielle médicale ne peut être séparé du soutien d’ensembles de données de haute qualité. Du diagnostic des maladies au développement de médicaments en passant par la médecine personnalisée, les ensembles de données jouent un rôle indispensable dans la promotion de l’application de la vision artificielle, des grands modèles, etc. dans le domaine médical.

Les ensembles de données médicales se présentent sous diverses formes, couvrant des ressources de données dans différentes dimensions et domaines. Par exemple, dans le domaine du diagnostic des maladies, les ensembles de données de type questions-réponses tels que RJUA-QA favorisent l’application automatisée de connaissances médicales complexes ; et dans le domaine de la médecine traditionnelle chinoise, l'ensemble de données de médecine traditionnelle chinoise Shennong intègre la littérature sur la médecine traditionnelle chinoise, les cas cliniques et les données de prescription.

À cette fin, cet article organise 10 ensembles de données dans le domaine médical, couvrant la médecine traditionnelle chinoise de Shennong, les livres de médecine chinoise ancienne, le raisonnement médical, les questions-réponses médicales... dans le but d'aider les chercheurs à comprendre rapidement la distribution et les caractéristiques de ces ressources de données et de fournir une inspiration pour leur application dans des problèmes de recherche spécifiques.

Cliquez pour voir plus d'ensembles de données open source :

https://go.hyper.ai/SjWDr

Scannez le code QR et notez « dataset » pour rejoindre le groupe de discussion↓

Résumé des ensembles de données médicales chinoises

1. Ensemble de données de commandes de conversation médicale chinoise MedChatZH

Taille estimée :3,9 Go

Adresse de téléchargement :https://go.hyper.ai/AZwFf

MedChatZH est un ensemble de données de conversations médicales chinoises publié par l'Université des sciences et technologies de Chine orientale. Il vise à améliorer la compréhension et la génération de dialogues de consultation médicale chinoise (notamment dans le cadre de la médecine traditionnelle chinoise) grâce à une formation continue sur les bases de la médecine traditionnelle chinoise et à un perfectionnement des données d'instruction médicale.

2. RJUA-QA Le premier ensemble de données de raisonnement répondant à des questions sur une spécialité médicale chinoise

Taille estimée :2,34 Mo

Adresse de téléchargement :https://go.hyper.ai/rIwcK

Cet ensemble de données est un ensemble de données de raisonnement innovant de type questions-réponses pour l'urologie médicale, créé par l'équipe Ant Group Medical LLM (Large Language Model) en collaboration avec l'équipe d'experts en urologie de l'hôpital Renji affilié à la faculté de médecine de l'université Jiao Tong de Shanghai. Il est présenté sous la forme Q-contexte-A (question-contexte-réponse), dans laquelle les données du cas sont rédigées par des médecins professionnels sur la base de l'expérience clinique et n'impliquent aucune confidentialité personnelle des patients et des médecins.

3. Données sur le dialogue médical chinois

Taille estimée :279,64 Mo

Adresse de téléchargement :https://go.hyper.ai/lM5sd

Cet ensemble de données est un ensemble de questions-réponses médicales chinoises, qui contient 6 dossiers de départements médicaux différents, à savoir : Andrologie (94 596 paires de questions-réponses), Médecine interne (220 606 paires de questions-réponses), Obstétrique et gynécologie (183 751 paires de questions-réponses), Oncologie (75 553 paires de questions-réponses), Pédiatrie (101 602 paires de questions-réponses), Chirurgie (115 991 paires de questions-réponses), totalisant 792 099 points de données. Il y a un fichier csv dans chaque dossier.

4. Ensemble de données de conversation médicale du chatbot médical IA

Taille estimée :118,35 Mo

Adresse de téléchargement :https://go.hyper.ai/MCH57

Il s’agit d’un ensemble de données expérimentales conçu pour exécuter des chatbots médicaux, qui contient 256 916 conversations entre patients et médecins.

5. Ensemble de données ShenNong TCM Ensemble de données sur la médecine traditionnelle chinoise de Shennong

Taille estimée :28,98 Mo

Adresse de téléchargement :https://go.hyper.ai/iJsGu

Cet ensemble de données est spécialement conçu pour la formation et l’évaluation de modèles linguistiques à grande échelle dans le domaine de la médecine traditionnelle chinoise. Il contient plus de 110 000 données d’instructions, générées via une méthode d’auto-instruction centrée sur l’entité. Il se concentre sur les entités fondamentales et les différents scénarios d’intention dans le domaine de la médecine traditionnelle chinoise. Il peut non seulement améliorer la capacité du modèle à répondre aux questions liées à la médecine traditionnelle chinoise, mais également aider au diagnostic de la médecine traditionnelle chinoise et fournir des conseils médicaux personnalisés.

6. Ensemble de données sur les livres anciens de médecine traditionnelle chinoise

Taille estimée :80,49 Mo

Adresse de téléchargement :https://go.hyper.ai/pyHEs

Cet ensemble de données contient environ 700 textes de médecine chinoise ancienne, couvrant les classiques médicaux de la dynastie pré-Qin à la fin de la dynastie Qing et à la République de Chine. Ces documents comprennent non seulement des théories médicales, des prescriptions, de la pharmacologie, etc., mais contiennent également de riches cas cliniques et des connaissances encyclopédiques médicales.

7. Ensemble de données de médecine traditionnelle chinoise Ensemble de données de diagnostic de médecine traditionnelle chinoise SFT

Taille estimée :341,69 Mo

Adresse de téléchargement :https://go.hyper.ai/cIHaP

Cet ensemble de données est un ensemble de données de haute qualité axé sur le domaine de la médecine traditionnelle chinoise, contenant environ 1 Go de contenu de haute qualité tel que des cas cliniques dans divers domaines de la médecine traditionnelle chinoise, des livres célèbres, des encyclopédies médicales et des glossaires. L'ensemble de données est principalement composé de données internes provenant de sources non liées au réseau. Le 99% est en chinois simplifié avec une excellente qualité et une densité d'informations considérable, ce qui le rend adapté à des fins de pré-formation ou de pré-formation continue.

8. Ensemble de données sur le dialogue médical chinois

Taille estimée :737,32 Mo

Adresse de téléchargement :https://go.hyper.ai/cCrcT

Cet ensemble de données médicales chinoises est une ressource complète pour développer et former des modèles linguistiques capables de fournir des conversations et des recommandations professionnelles dans le domaine médical. Il combine plusieurs types de données, notamment des connaissances encyclopédiques, des textes de manuels, des conversations réelles entre médecins et patients et des données d'évaluation, pour améliorer la précision et la praticité du modèle.

9. Ensemble de données de raisonnement médical SFT Medical o1 Reasoning

Adresse de téléchargement :https://go.hyper.ai/BAVNR

Cet ensemble de données a été publié par l'Université chinoise de Hong Kong et l'Institut de Big Data de Shenzhen en 2024. Il est conçu pour affiner le modèle de langage médical HuatuoGPT-o1 afin d'améliorer ses performances dans les tâches de raisonnement médical complexes.

10. Ensemble de données de référence du test de compétence médicale multilingue MMedBench

Taille estimée :20,69 Mo

Adresse de téléchargement :https://go.hyper.ai/ux6FF

Cet ensemble de données est un ensemble complet de données de référence de tests de compétence médicale multilingues développé par l'équipe Smart Healthcare de l'École d'intelligence artificielle de l'Université Jiao Tong de Shanghai en 2024. Il vise à évaluer le développement de modèles multilingues dans le domaine médical et couvre 6 langues et 21 sous-domaines médicaux.

11 , Corpus médical multilingue à grande échelle MMedC

Taille estimée :31,05 Go

Adresse de téléchargement :https://go.hyper.ai/K8RcQ

Cet ensemble de données est un corpus médical multilingue construit par l'équipe Smart Healthcare de l'École d'intelligence artificielle de l'Université Jiao Tong de Shanghai en 2024. Il contient environ 25,5 milliards de jetons et couvre 6 langues principales : anglais, chinois, japonais, français, russe et espagnol.

Ce qui précède est l'ensemble de données médicales chinoises compilé par HyperAI. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, n'hésitez pas à laisser un message ou à soumettre une contribution pour nous le faire savoir !

À propos d'HyperAI

HyperAI (hyper.ai) est une communauté leader en matière d'intelligence artificielle et de calcul haute performance en Chine.Nous nous engageons à devenir l'infrastructure dans le domaine de la science des données en Chine et à fournir des ressources publiques riches et de haute qualité aux développeurs nationaux. Jusqu'à présent, nous avons :

* Fournir des nœuds de téléchargement accélérés nationaux pour plus de 1 300 ensembles de données publiques

* Comprend plus de 400 tutoriels en ligne classiques et populaires

* Interprétation de plus de 200 cas d'articles AI4Science

* Prise en charge de plus de 500 termes de recherche associés

* Hébergement de la première documentation complète d'Apache TVM en Chine

Visitez le site Web officiel pour commencer votre parcours d'apprentissage :

https://hyper.ai

Résumé De 10 Principaux Ensembles De Données Médicales Chinoises : Couvrant La Médecine Chinoise De Shennong, Les Anciens Livres De Médecine Chinoise, Le Raisonnement Médical, Les Questions Et Réponses médicales... | Actualités | HyperAI