HyperAI

Résumé De 10 Principaux Ensembles De Données Médicales : Couvrant Les Réponses Aux Questions/raisonnements/dossiers Cliniques Réels/images Échographiques/images CT...

特色图像

Avec l’intégration profonde de la technologie de l’intelligence artificielle dans le domaine médical et l’innovation continue de la technologie d’imagerie médicale, les données médicales, en tant que clé pour percer les mystères de la vie, s’accumulent et se développent à un rythme explosif. Elle a repoussé les limites de la recherche médicale traditionnelle et apporté des changements révolutionnaires au diagnostic et au traitement des maladies ainsi qu’à la gestion de la santé.

À mesure que la recherche médicale passe d’une approche axée sur l’expérience à une approche axée sur les données, la vitesse d’itération des outils de recherche fondamentale a progressivement ralenti.La qualité des ensembles de données médicales est devenue un facteur essentiel pour déterminer si un modèle peut passer de la conception théorique à l’application pratique clinique.Des données médicales de haute qualité peuvent non seulement capturer avec précision les caractéristiques de la maladie, mais également fournir un support fiable pour la formulation de plans médicaux personnalisés.

La construction d’un ensemble de données médicales n’est en aucun cas une simple liste de cas.Par rapport à la collecte générale de données, l’acquisition de données médicales doit respecter strictement les normes éthiques afin de garantir la confidentialité des patients et la conformité de l’utilisation des données.Afin de garantir la scientificité et l'efficacité des données, il est nécessaire de normaliser le processus de collecte de données, d'allouer rationnellement les ensembles d'entraînement, les ensembles de validation et les ensembles de tests, et d'établir un mécanisme de mise à jour dynamique pour compléter régulièrement les nouvelles données afin de s'adapter aux changements du spectre des maladies et au développement des technologies de diagnostic et de traitement. Face à des tâches médicales complexes telles que le diagnostic des maladies, le développement de médicaments et la prédiction de la santé, lors de la construction d'ensembles de données, il est nécessaire d'analyser en profondeur les besoins de divers domaines, d'intégrer des informations multimodales, de simuler des scénarios cliniques réels et de fournir des exemples d'apprentissage pratiques pour la formation des modèles.

En résumé, à l’ère de la médecine de précision, l’ensemble de la communauté médicale a constaté une croissance explosive de la demande en ensembles de données médicales de haute qualité. À cet égard,HyperAI a compilé une série d'ensembles de données médicales extrêmement précieux et largement utilisés pour tout le monde, couvrant plusieurs domaines professionnels médicaux tels que le cancer, le cœur, la radiographie osseuse, etc.Certains d’entre eux viennent des meilleures écoles de médecine et d’institutions médicales faisant autorité.

Cliquez pour voir plus d'ensembles de données open source :

https://go.hyper.ai/g9PvL

Résumé de l'ensemble de données médicales

1 Ensemble de données médicales réelles chinoises JMED

Adresse de téléchargement :https://go.hyper.ai/4jJTa

L'ensemble de données JMED est un nouvel ensemble de données basé sur la distribution de données médicales du monde réel. Il a été construit par l'équipe Citrus en 2025. L'ensemble de données est dérivé de conversations anonymes entre médecins et patients dans l'hôpital Internet JD Health et est filtré pour conserver les consultations qui suivent un flux de travail de diagnostic standardisé. La version initiale contient 1 000 dossiers cliniques de haute qualité couvrant tous les groupes d'âge (0 à 90 ans) et plusieurs spécialités. Chaque question comprend 21 options de réponse.

Différent des ensembles de données existants, JMED simule étroitement des données cliniques réelles tout en facilitant une formation efficace du modèle. Bien que basé sur des données de consultation réelles, il ne provient pas directement de données médicales réelles, de sorte que l'équipe de recherche peut intégrer les éléments clés nécessaires à la formation du modèle.

2 Ensemble de données de réponses aux questions de texte médical MedQA

Taille estimée :125,64 Mo

Adresse de téléchargement :https://go.hyper.ai/VfIWx

L'ensemble de données MedQA est un ensemble de données de questions-réponses pour le domaine médical qui simule le style de l'examen de licence médicale des États-Unis (USMLE). Il a été publié en 2020 par une équipe de recherche du MIT et de l'Université des sciences et technologies de Huazhong. Le résultat de l'article connexe est « De quelle maladie souffre ce patient ? Un ensemble de données de réponses à des questions de domaine ouvert à grande échelle à partir d'examens médicaux ».

Les ensembles de données contiennent respectivement 12 723, 34 251 et 14 123 questions et sont conçus pour évaluer la capacité du modèle à comprendre et à appliquer les connaissances médicales. Il est divisé en ensemble d'entraînement, ensemble de développement et ensemble de test, qui sont utilisés respectivement pour l'entraînement, la vérification et les tests du modèle.

3 Raisonnement médical O1 SFT 

Ensembles de données de raisonnement médical

Taille estimée :21,71 Mo

Adresse de téléchargement :https://go.hyper.ai/iVUWA

L'ensemble de données SFT Medical o1 Reasoning a été publié par l'Université chinoise de Hong Kong et l'Institut de Big Data de Shenzhen en 2024. Le résultat de l'article associé est « HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs ».

Cet ensemble de données est conçu pour affiner le grand modèle de langage médical HuatuoGPT-o1 afin d'améliorer ses performances dans les tâches de raisonnement médical complexes. La construction de l'ensemble de données s'appuie sur GPT-4o, qui garantit l'exactitude et la fiabilité des données en recherchant des questions médicales vérifiables et en vérifiant les réponses à l'aide d'un vérificateur médical.

4 Radiologie ROCOv2 

Ensembles de données d'images médicales multimodales

Taille estimée :17,29 Go

Adresse de téléchargement :https://go.hyper.ai/xs4zS

ROCOv2 (Radiology Object in COntext Version 2) est un ensemble de données d'images médicales multimodales innovant qui combine des images radiologiques avec des concepts et descriptions médicaux associés. Cet ensemble de données extrait des images radiologiques et des concepts et descriptions médicaux associés du sous-ensemble PMC Open Access, et améliore l'extraction et le filtrage des concepts en fonction de l'ensemble de données ROCO.

L'ensemble de données contient 79 789 images radiologiques couvrant une variété de modalités cliniques, de régions anatomiques et d'orientations (pour les rayons X), chacune avec une description de concept médical correspondante. Il peut être utilisé pour la formation de modèles d'annotation d'images, la classification d'images multi-étiquettes, la pré-formation de modèles de domaine médical, l'évaluation de modèles d'apprentissage en profondeur, la récupération d'images et la génération de légendes, etc.

5 Ensemble de données informatiques médicales MedCalc-Bench

Taille estimée :16,04 Mo

Adresse de téléchargement :https://go.hyper.ai/pDbcu

MedCalc-Bench est un ensemble de données spécialement conçu pour évaluer les capacités de calcul médical des grands modèles de langage (LLM). Il a été publié conjointement en 2024 par neuf institutions, dont la Bibliothèque nationale de médecine, les National Institutes of Health et l'Université de Virginie. Le résultat de l'article associé est « MEDCALC-BENCH : Evaluating Large Language Models for Medical Calculations », qui a été accepté par NeurIPS 2024.

L'ensemble de données contient 10 055 instances de formation et 1 047 instances de test, couvrant 55 tâches informatiques différentes. Chaque exemple comprend les notes du patient, une question pour calculer une valeur clinique spécifique, la valeur de réponse finale et une solution étape par étape. Divisés en ensembles de formation et de test, ils peuvent être utilisés pour affiner les LLM afin d'améliorer leurs performances dans les tâches informatiques médicales.

6 Ensemble de données de conversation médicale de chatbot médical IA

Taille estimée :118,35 Mo

Adresse de téléchargement :https://go.hyper.ai/W5OnS

Il s’agit d’un ensemble de données expérimentales conçu pour exécuter des chatbots médicaux, qui contient 256 916 conversations entre patients et médecins.

7 Imagerie CT du cancer TCGA-ESCA

Taille estimée :3,79 Go

Adresse de téléchargement :https://go.hyper.ai/eJWQt

TCGA – ESCA Cancer CT Images est un ensemble de données lié au cancer de l'œsophage, publié par le portail de données GDC. Contenant 5 271 fichiers de données provenant de 185 personnes, cet ensemble de données vise à suivre numériquement l'ensemble du processus de diagnostic et de traitement du cancer et à enregistrer les résultats des examens, les prescriptions et l'efficacité sous forme d'archives numériques.

8 Imagerie CT du cancer TCGA-KICH 

Taille estimée :1,62 Go

Adresse de téléchargement :https://go.hyper.ai/iVUWA

TCGA – KICH Cancer CT Images est un ensemble de données lié à l'adénome et à l'adénocarcinome, publié par GDC Data Portal. Contenant 2 325 fichiers de données provenant de 113 personnes, cet ensemble de données vise à suivre numériquement l'ensemble du processus de diagnostic et de traitement du cancer et à enregistrer les résultats des examens, les prescriptions et l'efficacité sous forme d'archives numériques.

9 Données d'image CT du cancer 

Taille estimée :367,88 Mo

Adresse de téléchargement :https://go.hyper.ai/tsMh5

Tutoriel d'analyse d'images médicales CT : Images CT provenant d'archives d'imagerie du cancer avec contraste et âge du patient L'ensemble de données est un ensemble de données d'images CT du cancer publié par Kaggle en 2016. L'article associé est « Données radiologiques de la collection The Cancer Genome Atlas Lung Adenocarcinoma [TCGA-LUAD] ».

Il contient 475 images CT de cas de 69 patients pour examiner et comparer l'association entre l'âge du patient et les données d'image CT, et il fait partie de la base de données d'images CT du cancer du poumon TCGA-LUAD.

10 Ensemble de données de radiographie osseuse MURA 

Taille estimée :6,74 Go

Adresse de téléchargement :https://go.hyper.ai/DlGYH

L'ensemble de données MURA est un grand ensemble de données de radiographie osseuse qui vise à déterminer si les os sont normaux grâce aux radiographies. L'ensemble de données a été publié par l'Université de Stanford en 2017. L'article associé est « MURA : grand ensemble de données pour la détection d'anomalies dans les radiographies musculo-squelettiques ».

L'éditeur espère que l'ensemble de données conduira à des avancées significatives dans les techniques d'imagerie médicale qui peuvent établir des diagnostics à un niveau expert pour améliorer les soins de santé dans les zones où le nombre de radiologues est limité.