HyperAIHyperAI

Command Palette

Search for a command to run...

Compilation De Jeux De Données | De l'imagerie médicale/données Cliniques À l'atlas cellulaire/questions-réponses Médicales, 10 Jeux De Données Majeurs Couvrant De Multiples Scénarios Pathologiques

Featured Image

À mesure que l'IA pénètre rapidement dans le domaine médical, les ensembles de données de haute qualité deviennent progressivement le fondement même de l'amélioration des performances des modèles et de la mise en œuvre des applications.De la reconnaissance d'images médicales à l'aide à la décision clinique, et jusqu'à l'analyse des mécanismes biologiques,Le type, l'échelle et la précision des annotations des données déterminent directement la limite supérieure des capacités du modèle et les limites de son application.

D'un point de vue global de développement, les ensembles de données médicales présentent des caractéristiques d'évolution parallèle vers la multimodalité et le raffinement.d'une part,Les données d'imagerie médicale, telles que les radiographies, les tomodensitométries et les IRM, restent prédominantes. Ces données présentent des structures standardisées et des annotations claires, ce qui les rend adaptées à l'entraînement et à l'évaluation des modèles de vision par ordinateur.d'autre part,Les types de données plus complexes, notamment les indicateurs cliniques, la prédiction des risques de maladie, la réponse aux médicaments et même le séquençage unicellulaire, connaissent une croissance rapide, faisant passer l'IA de la simple « reconnaissance d'images » à des niveaux plus profonds de diagnostic assisté et de recherche en sciences de la vie.

Les 10 ensembles de données médicales sélectionnés dans cet article représentent une facette de cette tendance.Il aborde différents scénarios de maladies et orientations de recherche.Elle comprend à la fois des données d'imagerie ou cliniques relatives à des maladies spécifiques, ainsi que des recherches de pointe en bioinformatique et en pharmacologie.

Une analyse systématique de ces ensembles de données révèle que les données standardisées et structurées demeurent essentielles à l'entraînement et à l'évaluation des modèles, tandis que la capacité à fusionner des données intermodales et multi-sources devient un facteur clé influençant la performance et la capacité de généralisation des modèles. Une analyse approfondie de ces ressources de données contribue également à mieux comprendre les priorités de développement actuelles et l'orientation évolutive de l'IA médicale.

Pendant longtemps,HyperAI collecte et organise en continu des ensembles de données provenant de multiples domaines.Elle fournit non seulement des ensembles de données open source de haute qualité couvrant de multiples domaines tels que l'imagerie médicale, les données cliniques et la bioinformatique dans le domaine médical, mais elle offre également un portail unifié de découverte et d'utilisation des données pour les chercheurs et les développeurs du monde entier pour de nombreuses tâches/domaines tels que l'intelligence incarnée, la conduite autonome, la reconnaissance optique de caractères (OCR), la compréhension multimodale et la réponse intelligente aux questions.

Des ensembles de données de meilleure qualité :

https://hyper.ai/datasets

Pandémies et épidémies historiques Ensemble de données historiques mondiales sur les épidémies

* Utilisation en ligne :

https://go.hyper.ai/WW6gh

L'ensemble de données historiques sur les pandémies et épidémies est un jeu de données couvrant les principaux événements pandémiques de l'histoire mondiale, conçu pour fournir une ressource directement exploitable pour l'analyse. Cet ensemble de données contient 50 événements pandémiques majeurs, de la peste antonine de 165 après J.-C. à la COVID-19 et à la variole du singe en 2023, couvrant toutes les époques, toutes les régions et tous les types d'agents pathogènes. 

Cancer du poumon clinique Ensemble de données cliniques sur le cancer du poumon

* Utilisation en ligne :

https://go.hyper.ai/0YW09

Lung Cancer Clinical est un ensemble de données cliniques contenant 1 500 dossiers de patients couvrant la période de 2015 à 2025, et couvrant 60 pays dans les six régions de l'Organisation mondiale de la santé (OMS).

Cet ensemble de données fournit des informations cliniques, démographiques, liées au mode de vie, génétiques et diagnostiques détaillées sur le cancer du poumon. Ces données proviennent de la fiche d'information de l'OMS et des Statistiques mondiales de la recherche sur le cancer (GLOBOCAN 2020) et se prêtent à l'analyse exploratoire des données (AED), à la classification par apprentissage automatique, à l'analyse de survie, à l'analyse des tendances géographiques et à la recherche en santé publique.

Réaction indésirable au médicament Ensemble de données simulées sur les effets indésirables des médicaments

* Utilisation en ligne :

https://go.hyper.ai/hJg6S

Cet ensemble de données est conçu pour reproduire les rapports de pharmacovigilance relatifs aux effets indésirables des médicaments (EIM) et vise à soutenir la recherche, les expériences d'apprentissage automatique et le développement d'algorithmes pour la surveillance de la sécurité des médicaments. Les rapports de sécurité des cas (RSC) sont générés artificiellement, inspirés des systèmes de pharmacovigilance existants tels que FDA FAERS et EMA EudraVigilance. 

Cet ensemble de données met particulièrement en évidence la rareté et le déséquilibre des effets indésirables graves : la plupart des rapports concernent des réactions bénignes, tandis que les résultats graves et mortels sont relativement rares (total de cas graves/mortels d'environ 4 à 51 TP3T), reflétant la sous-déclaration et le biais de distribution de la gravité courants dans la surveillance post-commercialisation.

séquençage d'ARN unicellulaire pancancéreux Ensemble de données de l'Atlas de transcription unicellulaire du cancer

* Utilisation en ligne :

https://go.hyper.ai/X0FCx

Cet ensemble de données contient des données d'expression transcriptomique de 7 930 cellules uniques, couvrant trois états biologiques différents : un état immunitaire sain de base, une tumeur liquide (leucémie myéloïde) et un microenvironnement tumoral solide (mélanome). Il vise à établir un référentiel d'analyse unicellulaire intégré et inter-cohortes afin de fournir une base de référence pour l'évaluation des performances des algorithmes et la comparaison méthodologique, la correction des effets de lot inter-cohortes, l'analyse de l'état d'épuisement immunitaire et l'identification de biomarqueurs inter-types de tumeurs. 

IRMf Ensemble de données d'imagerie par résonance magnétique fonctionnelle

* Utilisation en ligne :

https://go.hyper.ai/KYaOn

THINGS-fMRI est un ensemble de données d'imagerie par résonance magnétique fonctionnelle (IRMf) à haute densité destiné à la recherche sur la cognition des objets. Il a été mis à disposition par l'Institut national de la santé mentale des Instituts nationaux de la santé (NIH), l'Institut Max Planck pour la cognition humaine et les neurosciences en Allemagne, et la faculté de médecine de l'université de Giessen, entre autres institutions. Son objectif est de caractériser de manière systématique la représentation visuelle et sémantique des objets du monde réel par le cerveau humain. 

Cet ensemble de données appartient à THINGS-data et contient 1 854 concepts d'objets et 26 107 images d'objets dans des scènes naturelles, sélectionnées et étiquetées manuellement. Lors de l'expérience d'IRMf, les sujets visualisaient des images d'objets issues de la base de données THINGS pendant l'examen, tandis que les signaux BOLD de l'ensemble du cerveau étaient enregistrés afin d'analyser la distribution spatiale des représentations des objets dans le cerveau. 

Trois participants ont réalisé 12 séances d'imagerie, visualisant un total de 8 740 images uniques couvrant 720 catégories d'objets. Les images étaient présentées rapidement et séquentiellement, les participants maintenant leur fixation centrale. Une tâche de détection d'anomalies garantissait leur attention, et certaines images ont été présentées à plusieurs reprises lors de différentes séances afin de permettre une analyse de la stabilité et de la reproductibilité des représentations. 

En plus des données fonctionnelles orientées vers la tâche, l'ensemble de données fournit également de riches informations structurelles et de numérisation auxiliaire, notamment des images structurelles T1/T2 haute résolution, de l'imagerie vasculaire (TOF, T2*), des cartes de champ, des expériences de localisation fonctionnelle, des données de localisation topologique rétinienne et des données de connectivité fonctionnelle au repos, fournissant un support pour la modélisation fonctionnelle du cerveau à plusieurs niveaux. 

CHOSES-MEG Ensemble de données de magnétoencéphalographie (MEG)

* Utilisation en ligne :

https://go.hyper.ai/VdJ6F

THINGS-MEG est un ensemble de données de magnétoencéphalographie (MEG) destiné à la recherche sur la cognition des objets. Publié par l'Institut national de la santé mentale des Instituts nationaux de la santé (NIH), l'Institut Max Planck pour la cognition humaine et les neurosciences en Allemagne, et la faculté de médecine de l'université de Giessen, entre autres institutions, il enregistre l'activité électromagnétique cérébrale à l'échelle de la milliseconde lorsque les sujets observent des images d'objets. Ces données permettent d'analyser la dynamique temporelle du traitement des objets. 

Cet ensemble de données appartient à la base de données THINGS. Lors de l'expérience MEG, les participants ont visualisé un sous-ensemble représentatif d'images THINGS. L'expérience comprenait 12 sessions indépendantes (N = 4 participants), totalisant 22 448 images uniques couvrant les 1 854 catégories d'objets. Les images étaient présentées rapidement et séquentiellement (avec un intervalle moyen d'environ 1,5 ± 0,2 seconde), exigeant des participants le maintien d'une fixation centrale constante.

Ensemble de données EEG THINGS-EEG

* Utilisation en ligne :

https://go.hyper.ai/IVwu6

THINGS-EEG est un ensemble de données d'électroencéphalographie (EEG) destiné à la recherche sur la cognition des objets. Publié par l'Institut national de la santé mentale (NIMH) des Instituts nationaux de la santé (NIH), l'Institut Max Planck de recherche sur la cognition humaine et les neurosciences (MHC) en Allemagne et la faculté de médecine de l'université de Giessen, entre autres institutions, il enregistre l'activité EEG de 50 sujets pendant qu'ils observent des images d'objets. Ces données permettent d'analyser la dynamique temporelle et les représentations cognitives du traitement des objets. 

Cet ensemble de données appartient à la base de données THINGS. Dans l'expérience, les participants ont visualisé un sous-ensemble représentatif de stimuli issus de cette base de données, comprenant 22 248 images couvrant 1 854 concepts d'objets. Les images étaient présentées selon un schéma de présentation visuelle sérielle rapide (RSVP), exigeant des participants le maintien d'une fixation centrale. Certaines images ont été présentées à plusieurs reprises afin d'analyser la stabilité des représentations neuronales.

Santé et style de vie Ensemble de données sur les modes de vie sains

* Utilisation en ligne :

https://go.hyper.ai/PyiDm

Health & Lifestyle est un ensemble de données sur le mode de vie en matière de santé publié en 2025. Il vise à explorer la relation entre les facteurs liés au mode de vie et l'état de santé individuel et à fournir une base expérimentale pour la modélisation de prédiction de la santé, l'analyse de cluster et l'exploration de données. 

Cet ensemble de données contient 100 000 enregistrements individuels, fournis au format CSV. Il couvre un large éventail d'informations, allant des données démographiques à l'état de santé et aux habitudes de vie. Les données ne contiennent aucune information personnelle réelle ; toutes les valeurs sont synthétisées artificiellement, tout en préservant la cohérence statistique avec les distributions réelles.

Ensemble de données de réponses aux questions de texte médical MedQA

* Utilisation en ligne :

https://go.hyper.ai/CyIG3

MedQA, un ensemble de données open source pour le domaine médical développé par une équipe de recherche du MIT et de l'Université des sciences et technologies de Huazhong, simule le style de l'examen d'agrément médical des États-Unis (USMLE).

Cet ensemble de données, issu d'examens médicaux professionnels, couvre l'anglais, le chinois simplifié et le chinois traditionnel, et comprend respectivement 12 723, 34 251 et 14 123 questions. Il vise à évaluer la capacité du modèle à comprendre et à appliquer les connaissances médicales. Outre les questions, un vaste corpus de manuels médicaux a été constitué et mis à disposition, permettant au modèle de compréhension de texte d'acquérir les connaissances nécessaires pour répondre aux questions. L'ensemble de données est divisé en trois parties : entraînement, développement et test, utilisées respectivement pour l'entraînement, la validation et le test du modèle.

Ensemble de données médicales réelles chinoises JMED

* Utilisation en ligne :

https://hyper.ai/datasets/20490

L'ensemble de données JMED est un nouvel ensemble de données basé sur des distributions de données médicales réelles, créé par l'équipe Citrus en 2025.

Cet ensemble de données provient de dialogues anonymes entre médecins et patients de l'hôpital en ligne JD Health, filtrés pour ne retenir que les consultations suivant des protocoles diagnostiques standardisés. La version initiale contient 1 000 dossiers cliniques de haute qualité, couvrant tous les groupes d'âge (0-90 ans) et de nombreuses spécialités. Chaque question propose 21 options de réponse, dont « Aucune des réponses ci-dessus ». Cette conception accroît considérablement la complexité et la difficulté de déterminer la bonne réponse, offrant ainsi un cadre d'évaluation plus rigoureux.

Comparé aux ensembles de données d'assurance qualité médicale existants, JMED présente trois avantages principaux : tout d'abord, il reflète plus précisément l'ambiguïté des descriptions des symptômes des patients et la nature dynamique du diagnostic clinique dans des scénarios réels. Deuxièmement, les options de réponse élargies nécessitent des capacités de raisonnement améliorées pour identifier la bonne réponse parmi de nombreux distracteurs. De plus, en utilisant la grande quantité de données de consultation des principaux hôpitaux de JD, nous pouvons générer en continu des données conformes aux caractéristiques réelles de répartition des patients.