Command Palette
Search for a command to run...
Datensatzzusammenstellung | Von Medizinischen Bildgebungs-/klinischen Daten Bis Hin Zu Zellatlanten/medizinischen Fragen Und Antworten: 10 Wichtige Datensätze, Die Verschiedene Krankheitsszenarien Abdecken

Da KI immer schneller in den medizinischen Bereich vordringt, werden hochwertige Datensätze zunehmend zur zentralen Grundlage für die Verbesserung der Modellleistung und die Implementierung von Anwendungen.Von der medizinischen Bilderkennung über die klinische Entscheidungsunterstützung bis hin zur Analyse biologischer Mechanismen,Art, Umfang und Genauigkeit der Annotationen der Daten bestimmen direkt die Obergrenze der Leistungsfähigkeit des Modells und die Grenzen seiner Anwendung.
Aus einer übergreifenden Entwicklungsperspektive weisen medizinische Datensätze Merkmale einer parallelen Evolution hin zu Multimodalität und Verfeinerung auf.einerseits,Medizinische Bilddaten wie Röntgenaufnahmen, CT-Scans und MRT-Scans sind nach wie vor weit verbreitet. Diese Daten weisen standardisierte Strukturen und eindeutige Annotationen auf und eignen sich daher gut zum Trainieren und Evaluieren von Computer-Vision-Modellen.auf der anderen Seite,Komplexere Datentypen, darunter klinische Indikatoren, Vorhersagen des Krankheitsrisikos, Arzneimittelreaktionen und sogar Einzelzellsequenzierung, nehmen rasant zu und treiben die KI von der "Bilderkennung" hin zu tiefergehenden Ebenen der assistierten Diagnostik und der lebenswissenschaftlichen Forschung.
Die in diesem Artikel ausgewählten 10 medizinischen Datensätze stellen einen Aspekt dieses Trends dar.Es umfasst verschiedene Krankheitsszenarien und Forschungsrichtungen.Dazu gehören sowohl Bildgebungs- oder klinische Daten im Zusammenhang mit spezifischen Krankheiten als auch hochmoderne bioinformatische und arzneimittelbezogene Forschung.
Eine systematische Überprüfung dieser Datensätze zeigt, dass standardisierte und strukturierte Daten weiterhin grundlegend für das Training und die Evaluierung von Modellen sind, während die Fähigkeit zur Fusion von multimodalen und multiquellenbasierten Daten zu einem Schlüsselfaktor für die Modellleistung und Generalisierungsfähigkeit wird. Die detaillierte Analyse dieser Datenressourcen trägt außerdem dazu bei, die aktuellen Entwicklungsprioritäten und die evolutionäre Richtung der medizinischen KI besser zu verstehen.
Für eine lange Zeit,HyperAI sammelt und organisiert kontinuierlich Datensätze aus verschiedenen Bereichen.Es bietet nicht nur hochwertige Open-Source-Datensätze für verschiedene Bereiche wie medizinische Bildgebung, klinische Daten und Bioinformatik im medizinischen Bereich, sondern stellt auch ein einheitliches Datenfindungs- und Nutzungsportal für Forscher und Entwickler weltweit für viele Aufgaben/Domänen wie verkörperte Intelligenz, autonomes Fahren, OCR, multimodales Verständnis und intelligente Fragebeantwortung bereit.
Weitere hochwertige Datensätze:
Historische Pandemien und Epidemien Globaler historischer Epidemiedatensatz
* Online nutzen:
Der Datensatz „Historische Pandemien und Epidemien“ umfasst bedeutende Pandemieereignisse der Weltgeschichte und dient als sofort anwendbare Analyseressource. Er enthält Daten zu 50 wichtigen Pandemien, von der Antoninischen Pest im Jahr 165 n. Chr. bis hin zu COVID-19 und den Affenpocken im Jahr 2023, und deckt alle Epochen, Regionen und Erregertypen ab.
Lungenkrebs-Klinik Klinischer Datensatz zu Lungenkrebs
* Online nutzen:
Lung Cancer Clinical ist ein klinischer Datensatz mit 1.500 Patientendatensätzen aus den Jahren 2015 bis 2025, der 60 Länder in allen sechs Regionen der Weltgesundheitsorganisation (WHO) umfasst.
Dieser Datensatz liefert detaillierte klinische, demografische, lebensstilbezogene, genetische und diagnostische Informationen zu Lungenkrebs. Die Daten stammen aus dem WHO-Factsheet und den globalen Krebsforschungsstatistiken (GLOBOCAN 2020) und eignen sich für explorative Datenanalyse (EDA), maschinelles Lernen, Überlebenszeitanalyse, geografische Trendanalyse und Forschung im Bereich der öffentlichen Gesundheit.
Unerwünschte Arzneimittelwirkung Simulierter Datensatz unerwünschter Arzneimittelwirkungen
* Online nutzen:
Dieser Datensatz simuliert Pharmakovigilanzberichte über unerwünschte Arzneimittelwirkungen (UAW) und dient der Unterstützung von Forschung, maschinellem Lernen und der Entwicklung von Algorithmen im Bereich der Arzneimittelsicherheitsüberwachung. Die Fallberichte (ICSRs) werden künstlich generiert und sind von realen Pharmakovigilanzsystemen wie FDA FAERS und EMA EudraVigilance inspiriert.
Dieser Datensatz verdeutlicht insbesondere die Seltenheit und das Ungleichgewicht bei schweren unerwünschten Arzneimittelwirkungen: Die meisten Meldungen betreffen leichte Reaktionen, während schwere und tödliche Ergebnisse relativ selten sind (Gesamtzahl schwerer/tödlicher Reaktionen ca. 4–51 TP3T), was die Untererfassung und die in der Marktüberwachung übliche Verzerrung der Schweregrade widerspiegelt.
Pan-Cancer scRNA-Seq Datensatz des Cancer Single-Cell Transcription Atlas
* Online nutzen:
Dieser Datensatz enthält Transkriptom-Expressionsdaten von 7.930 Einzelzellen aus drei verschiedenen biologischen Zuständen: gesunde Immunantwort, flüssiger Tumor (myeloische Leukämie) und solides Tumormikromilieu (Melanom). Ziel ist die Entwicklung eines Benchmarks für die kohortenübergreifende, integrierte Einzelzellanalyse. Dieser Benchmark dient der Bewertung der Algorithmenleistung und dem methodischen Vergleich, der Korrektur von Batch-Effekten in mehreren Kohorten, der Analyse des Immunerschöpfungszustands und der Identifizierung tumorübergreifender Biomarker.
THINGS-fMRI funktionelle Magnetresonanztomographie-Datensatz
* Online nutzen:
THINGS-fMRI ist ein hochauflösender Datensatz funktioneller Magnetresonanztomographie (fMRI) für die Objekterkennungsforschung. Er wurde unter anderem vom National Institute of Mental Health der National Institutes of Health (NIH), dem Max-Planck-Institut für Kognitions- und Neurowissenschaften in Deutschland und der Medizinischen Fakultät der Universität Gießen veröffentlicht. Ziel ist die systematische Charakterisierung der visuellen und semantischen Repräsentation von Objekten in der realen Welt im menschlichen Gehirn.
Dieser Datensatz gehört zu THINGS-data und umfasst 1.854 Objektkonzepte sowie 26.107 manuell ausgewählte und beschriftete Bilder von Objekten in natürlichen Szenen. Im fMRT-Experiment betrachteten die Probanden während des Scans Objektbilder aus der THINGS-Bilddatenbank, während gleichzeitig BOLD-Signale des gesamten Gehirns aufgezeichnet wurden, um die räumliche Repräsentationsverteilung der Objekte im Gehirn zu analysieren.
Drei Probanden absolvierten zwölf Scan-Sitzungen und betrachteten dabei insgesamt 8.740 verschiedene Bilder aus 720 Objektkategorien. Die Bilder wurden schnell und nacheinander präsentiert, wobei die Probanden ihren Blick auf den Mittelpunkt richteten. Eine Aufgabe zur Anomalieerkennung sicherte die Aufmerksamkeitsbindung, und einige Bilder wurden in verschiedenen Sitzungen wiederholt gezeigt, um die Stabilität der Repräsentation und die Reproduzierbarkeit zu analysieren.
Zusätzlich zu aufgabenorientierten funktionellen Daten bietet der Datensatz auch umfangreiche strukturelle und ergänzende Scaninformationen, darunter hochauflösende T1/T2-Strukturbilder, vaskuläre Bildgebung (TOF, T2*), Feldkarten, funktionelle Lokalisierungsexperimente, retinale topologische Lokalisierungsdaten und Daten zur funktionellen Konnektivität im Ruhezustand, die die Modellierung der Hirnfunktion auf mehreren Ebenen unterstützen.
THINGS-MEG Magnetoenzephalographie (MEG)-Datensatz
* Online nutzen:
THINGS-MEG ist ein Datensatz der Magnetoenzephalographie (MEG) für die Objekterkennungsforschung. Er wurde unter anderem vom National Institute of Mental Health der National Institutes of Health (NIH), dem Max-Planck-Institut für Kognitions- und Neurowissenschaften in Deutschland und der Medizinischen Fakultät der Universität Gießen veröffentlicht. Der Datensatz zeichnet die elektromagnetische Hirnaktivität im Millisekundenbereich auf, während Probanden Bilder von Objekten betrachten, und dient der Analyse der zeitlichen Dynamik der Objektverarbeitung.
Dieser Datensatz gehört zu den THINGS-Daten. Im MEG-Experiment betrachteten die Teilnehmenden eine repräsentative Auswahl der THINGS-Bilder. Das Experiment umfasste 12 unabhängige Sitzungen (N = 4 Teilnehmende) mit insgesamt 22.448 einzigartigen Bildern, die alle 1.854 Objektkategorien abdeckten. Die Bilder wurden schnell und nacheinander präsentiert (mit einem durchschnittlichen Intervall von ca. 1,5 ± 0,2 Sekunden), sodass die Teilnehmenden den Blick durchgehend auf den zentralen Punkt richten mussten.
THINGS-EEG EEG-Datensatz
* Online nutzen:
THINGS-EEG ist ein Elektroenzephalogramm-Datensatz (EEG) für die Objekterkennungsforschung. Er wurde unter anderem vom National Institute of Mental Health der National Institutes of Health (NIH), dem Max-Planck-Institut für Kognitions- und Neurowissenschaften in Deutschland und der Medizinischen Fakultät der Universität Gießen veröffentlicht. Der Datensatz zeichnet die EEG-Aktivität von 50 Probanden beim Betrachten von Objektbildern auf und dient der Analyse der zeitlichen Dynamik und der kognitiven Repräsentationen der Objektverarbeitung.
Dieser Datensatz gehört zu THINGS-data. Im Experiment betrachteten die Teilnehmenden eine repräsentative Auswahl von Stimuli aus der THINGS-Bilddatenbank mit 22.248 Bildern, die 1.854 Objektkonzepte abdeckten. Die Bilder wurden in schneller serieller visueller Präsentation (RSVP) gezeigt, wobei die Teilnehmenden einen zentralen Fixationspunkt beibehalten mussten. Einige Bilder wurden wiederholt präsentiert, um die Stabilität neuronaler Repräsentationen zu analysieren.
Gesundheit & Lebensstil Datensatz für einen gesunden Lebensstil
* Online nutzen:
„Health & Lifestyle“ ist ein im Jahr 2025 veröffentlichter Datensatz zum Thema Gesundheitslebensstil. Ziel ist es, die Beziehung zwischen Lebensstilfaktoren und individuellem Gesundheitszustand zu untersuchen und eine experimentelle Grundlage für die Modellierung von Gesundheitsvorhersagen, Clusteranalysen und Data Mining zu bieten.
Dieser Datensatz enthält 100.000 Einzeldatensätze im CSV-Format. Er deckt ein breites Spektrum an Informationen ab, von demografischen Daten über Gesundheitszustand bis hin zu Lebensgewohnheiten. Die Daten enthalten keine persönlichen Daten; alle Werte werden künstlich synthetisiert, wobei die statistische Konsistenz mit realen Verteilungen gewahrt bleibt.
MedQA-Datensatz zur Beantwortung medizinischer Textfragen
* Online nutzen:
MedQA, ein Open-Source-Datensatz für den medizinischen Bereich, der von einem Forschungsteam des MIT und der Huazhong University of Science and Technology entwickelt wurde, simuliert den Stil der United States Medical Licensing Examination (USMLE).
Dieser Datensatz, der aus medizinischen Prüfungen stammt, umfasst Fragen in Englisch, Vereinfachtem Chinesisch und Traditionellem Chinesisch mit 12.723, 34.251 bzw. 14.123 Fragen. Er dient der Evaluierung des Modells hinsichtlich seines Verständnisses und seiner Anwendung medizinischen Wissens. Zusätzlich zu den Prüfungsdaten wurde ein umfangreiches Korpus medizinischer Lehrbücher erstellt und veröffentlicht, aus dem das Leseverständnismodell das notwendige Wissen zur Beantwortung der Fragen gewinnen kann. Der Datensatz ist in Trainings-, Entwicklungs- und Testdatensätze unterteilt, die jeweils für das Training, die Validierung und das Testen des Modells verwendet werden.
JMED Chinesischer echter medizinischer Datendaten-Datensatz
* Online nutzen:
https://hyper.ai/datasets/20490
Der JMED-Datensatz ist ein neuer Datensatz, der auf realen medizinischen Datenverteilungen basiert und vom Citrus-Team im Jahr 2025 erstellt wurde.
Dieser Datensatz stammt aus anonymisierten Arzt-Patienten-Dialogen des JD Health Internet Hospital und wurde gefiltert, um Konsultationen mit standardisierten Diagnoseabläufen zu berücksichtigen. Die erste Version umfasst 1.000 hochwertige klinische Datensätze aller Altersgruppen (0–90 Jahre) und verschiedener Fachrichtungen. Jede Frage bietet 21 Antwortmöglichkeiten, darunter „Keine der oben genannten“. Dieses Design erhöht die Komplexität und Schwierigkeit, die richtige Antwort zu ermitteln, und ermöglicht so eine strengere Bewertung.
Im Vergleich zu vorhandenen medizinischen QA-Datensätzen bietet JMED drei Hauptvorteile: Erstens spiegelt es die Mehrdeutigkeit der Symptombeschreibungen der Patienten und die dynamische Natur der klinischen Diagnose in realen Szenarien genauer wider. Zweitens erfordern die erweiterten Antwortmöglichkeiten verbesserte Denkfähigkeiten, um die richtige Antwort unter zahlreichen Ablenkungen zu erkennen. Darüber hinaus können wir durch die Nutzung der großen Menge an Konsultationsdaten aus den größten Krankenhäusern von JD kontinuierlich Daten generieren, die den tatsächlichen Merkmalen der Patientenverteilung entsprechen.








