Zusammenfassung Der 10 Wichtigsten Medizinischen Datensätze: Umfasst Fragen Und Antworten/Argumentation/echte Klinische Aufzeichnungen/Ultraschallbilder/CT-Bilder …

Durch die umfassende Integration künstlicher Intelligenz in die Medizin und die kontinuierliche Innovation der medizinischen Bildgebungstechnologie häufen sich die medizinischen Daten, die den Schlüssel zur Entschlüsselung der Geheimnisse des Lebens darstellen, und wachsen explosionsartig. Sie hat die Grenzen der traditionellen medizinischen Forschung durchbrochen und revolutionäre Veränderungen in der Diagnose und Behandlung von Krankheiten sowie im Gesundheitsmanagement bewirkt.
Da sich die medizinische Forschung von einer erfahrungsbasierten zu einer datenbasierten Forschung entwickelt, hat sich die Iterationsgeschwindigkeit der Werkzeuge für die Grundlagenforschung allmählich verlangsamt.Die Qualität medizinischer Datensätze ist zu einem zentralen Faktor geworden, der darüber entscheidet, ob ein Modell von der theoretischen Konzeption zur klinischen praktischen Anwendung gelangen kann.Hochwertige medizinische Daten können nicht nur Krankheitsmerkmale genau erfassen, sondern bieten auch eine zuverlässige Unterstützung bei der Formulierung personalisierter medizinischer Pläne.
Der Aufbau eines medizinischen Datensatzes ist keineswegs eine einfache Auflistung von Fällen.Im Vergleich zur allgemeinen Datenerfassung muss die Erfassung medizinischer Daten streng ethischen Standards folgen, um die Privatsphäre der Patienten und die Einhaltung der Vorschriften zur Datennutzung zu gewährleisten.Um die Wissenschaftlichkeit und Wirksamkeit der Daten sicherzustellen, ist es notwendig, den Datenerfassungsprozess zu standardisieren, Trainingssätze, Validierungssätze und Testsätze rational zuzuweisen und einen dynamischen Aktualisierungsmechanismus einzurichten, um regelmäßig neue Daten zu ergänzen und sich an Änderungen im Krankheitsspektrum und an die Entwicklung von Diagnose- und Behandlungstechnologien anzupassen. Angesichts komplexer medizinischer Aufgaben wie Krankheitsdiagnose, Arzneimittelentwicklung und Gesundheitsprognosen ist es beim Erstellen von Datensätzen erforderlich, die Anforderungen verschiedener Bereiche gründlich zu analysieren, multimodale Informationen zu integrieren, reale klinische Szenarien zu simulieren und praktische Lernbeispiele für das Modelltraining bereitzustellen.
Zusammenfassend lässt sich sagen, dass im Zeitalter der Präzisionsmedizin die gesamte medizinische Gemeinschaft einen explosionsartigen Anstieg der Nachfrage nach hochwertigen medizinischen Datensätzen erlebt hat. In diesem ZusammenhangHyperAI hat eine Reihe äußerst wertvoller und weit verbreiteter medizinischer Datensätze für jedermann zusammengestellt, die mehrere medizinische Fachgebiete wie Krebs, Herz, Knochenröntgen usw. abdecken.Einige von ihnen kommen von führenden medizinischen Fakultäten und renommierten medizinischen Einrichtungen.
Klicken Sie hier, um weitere Open-Source-Datensätze anzuzeigen:
Zusammenfassung des medizinischen Datensatzes
1 JMED Chinesischer echter medizinischer Datendaten-Datensatz
Downloadadresse:https://go.hyper.ai/4jJTa
Der JMED-Datensatz ist ein neuer Datensatz, der auf der Verteilung realer medizinischer Daten basiert. Es wurde 2025 vom Citrus-Team erstellt. Der Datensatz stammt aus anonymen Arzt-Patienten-Gesprächen im JD Health Internet Hospital und wird gefiltert, um Konsultationen beizubehalten, die einem standardisierten diagnostischen Arbeitsablauf folgen. Die Erstveröffentlichung enthält 1.000 hochwertige klinische Aufzeichnungen, die alle Altersgruppen (0–90 Jahre) und mehrere Fachgebiete abdecken. Jede Frage umfasst 21 Antwortmöglichkeiten.
Im Gegensatz zu vorhandenen Datensätzen simuliert JMED reale klinische Daten genau und ermöglicht gleichzeitig ein effizientes Modelltraining. Obwohl es auf echten Konsultationsdaten basiert, stammt es nicht direkt aus tatsächlichen medizinischen Daten, sodass das Forschungsteam die für das Modelltraining erforderlichen Schlüsselelemente integrieren kann.
2 MedQA-Datensatz zur Beantwortung medizinischer Textfragen
Geschätzte Größe:125,64 MB
Downloadadresse:https://go.hyper.ai/VfIWx
Der MedQA-Datensatz ist ein Frage-Antwort-Datensatz für den medizinischen Bereich, der den Stil der United States Medical Licensing Examination (USMLE) simuliert. Es wurde 2020 von einem Forschungsteam des MIT und der Huazhong University of Science and Technology veröffentlicht. Das zugehörige Ergebnis der Arbeit lautet: „Welche Krankheit hat dieser Patient? Ein umfangreicher Open-Domain-Datensatz zur Beantwortung von Fragen aus medizinischen Untersuchungen.“
Die Datensätze enthalten 12.723, 34.251 bzw. 14.123 Fragen und sollen die Fähigkeit des Modells bewerten, medizinisches Wissen zu verstehen und anzuwenden. Es ist in Trainingssatz, Entwicklungssatz und Testsatz unterteilt, die jeweils zum Trainieren, Verifizieren und Testen des Modells verwendet werden.
3 Medizinische O1-Argumentation SFT
Datensätze zur medizinischen Argumentation
Geschätzte Größe:21,71 MB
Downloadadresse:https://go.hyper.ai/iVUWA
Der Medical o1 Reasoning SFT-Datensatz wurde 2024 von der Chinese University of Hong Kong und dem Shenzhen Institute of Big Data veröffentlicht. Das zugehörige Papierergebnis ist „HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs“.
Dieser Datensatz dient der Feinabstimmung des großen medizinischen Sprachmodells HuatuoGPT-o1, um seine Leistung bei komplexen medizinischen Denkaufgaben zu verbessern. Der Aufbau des Datensatzes basiert auf GPT-4o, das die Genauigkeit und Zuverlässigkeit der Daten gewährleistet, indem es nach überprüfbaren medizinischen Fragen sucht und die Antworten mithilfe eines medizinischen Prüfers überprüft.
4 ROCOv2 Radiologie
Multimodale medizinische Bilddatensätze
Geschätzte Größe:17,29 GB
Downloadadresse:https://go.hyper.ai/xs4zS
ROCOv2 (Radiology Object in COntext Version 2) ist ein innovativer multimodaler medizinischer Bilddatensatz, der radiologische Bilder mit zugehörigen medizinischen Konzepten und Beschreibungen kombiniert. Dieser Datensatz extrahiert radiologische Bilder und zugehörige medizinische Konzepte und Beschreibungen aus der PMC Open Access-Teilmenge und verbessert die Konzeptextraktion und -filterung basierend auf dem ROCO-Datensatz.
Der Datensatz enthält 79.789 radiologische Bilder, die eine Vielzahl klinischer Modalitäten, anatomischer Regionen und Ausrichtungen (für Röntgenaufnahmen) abdecken, jeweils mit einer entsprechenden medizinischen Konzeptbeschreibung. Es kann zum Trainieren von Bildanmerkungsmodellen, zur Multi-Label-Bildklassifizierung, zum Vortraining von Modellen im medizinischen Bereich, zur Bewertung von Deep-Learning-Modellen, zum Bildabruf und zur Beschriftungsgenerierung usw. verwendet werden.
5 MedCalc-Bench-Datensatz für medizinische Berechnungen
Geschätzte Größe:16,04 MB
Downloadadresse:https://go.hyper.ai/pDbcu
MedCalc-Bench ist ein Datensatz, der speziell für die Bewertung der medizinischen Rechenkapazitäten großer Sprachmodelle (LLMs) entwickelt wurde. Es wurde 2024 gemeinsam von neun Institutionen veröffentlicht, darunter der National Library of Medicine, den National Institutes of Health und der University of Virginia. Das zugehörige Papierergebnis ist „MEDCALC-BENCH: Evaluating Large Language Models for Medical Calculations“, das von NeurIPS 2024 angenommen wurde.
Der Datensatz enthält 10.055 Trainingsinstanzen und 1.047 Testinstanzen, die 55 verschiedene Rechenaufgaben abdecken. Jedes Beispiel enthält die Notizen des Patienten, eine Frage zur Berechnung eines bestimmten klinischen Werts, den endgültigen Antwortwert und eine schrittweise Lösung. Aufgeteilt in Trainings- und Testsätze können sie zur Feinabstimmung von LLMs verwendet werden, um ihre Leistung bei medizinischen Computeraufgaben zu verbessern.
6 KI-medizinischer Chatbot – Datensatz zu medizinischen Gesprächen
Geschätzte Größe:118,35 MB
Downloadadresse:https://go.hyper.ai/W5OnS
Dies ist ein experimenteller Datensatz für die Ausführung medizinischer Chatbots, der 256.916 Gespräche zwischen Patienten und Ärzten enthält.
7 TCGA-ESCA-Krebs-CT-Bildgebung
Geschätzte Größe:3,79 GB
Downloadadresse:https://go.hyper.ai/eJWQt
TCGA – ESCA Cancer CT Images ist ein Datensatz zu Speiseröhrenkrebs, der vom GDC Data Portal veröffentlicht wird. Dieser Datensatz enthält 5.271 Datendateien von 185 Personen und zielt darauf ab, den gesamten Prozess der Krebsdiagnose und -behandlung digital zu verfolgen und Untersuchungsergebnisse, Rezepte und Wirksamkeit in Form digitaler Archive aufzuzeichnen.
8 TCGA-KICH-Krebs-CT-Bildgebung
Geschätzte Größe:1,62 GB
Downloadadresse:https://go.hyper.ai/iVUWA
TCGA – KICH Cancer CT Images ist ein Datensatz zu Adenomen und Adenokarzinomen, der vom GDC Data Portal veröffentlicht wird. Dieser Datensatz enthält 2.325 Datendateien von 113 Personen und zielt darauf ab, den gesamten Prozess der Krebsdiagnose und -behandlung digital zu verfolgen und Untersuchungsergebnisse, Rezepte und Wirksamkeit in Form digitaler Archive aufzuzeichnen.
9 CT-Bilddaten bei Krebs
Geschätzte Größe:367,88 MB
Downloadadresse:https://go.hyper.ai/tsMh5
Tutorial zur medizinischen CT-Bildanalyse: CT-Bilder aus einem Krebsbildarchiv mit Kontrast und Patientenalter. Der Datensatz ist ein 2016 von Kaggle veröffentlichter CT-Krebsbilddatensatz. Das zugehörige Dokument trägt den Titel „Radiologiedaten aus der Sammlung des Cancer Genome Atlas Lung Adenocarcinoma [TCGA-LUAD]“.
Es enthält 475 CT-Bilder von 69 Patienten, um den Zusammenhang zwischen Patientenalter und CT-Bilddaten zu untersuchen und zu vergleichen, und ist Teil der TCGA-LUAD-CT-Bilddatenbank für Lungenkrebs.
10 MURA-Knochenröntgen-Datensatz
Geschätzte Größe:6,74 GB
Downloadadresse:https://go.hyper.ai/DlGYH
Der MURA-Datensatz ist ein großer Knochenröntgendatensatz, der durch Röntgenaufnahmen feststellen soll, ob Knochen normal sind. Der Datensatz wurde 2017 von der Stanford University veröffentlicht. Das zugehörige Dokument trägt den Titel „MURA: Large Dataset for Abnormality Detection in Musculoskeletal Radiographs“.
Der Herausgeber hofft, dass der Datensatz zu erheblichen Fortschritten bei medizinischen Bildgebungsverfahren führen wird, die Diagnosen auf Expertenniveau ermöglichen und so die Gesundheitsversorgung in Gebieten mit einer begrenzten Anzahl von Radiologen verbessern.